Анализ и категоризация текстовой информации

@Sanedi · Регистрация: 22.10.2017

Author24 — интернет-сервис помощи студентам

Задача: создать ИИ, который будет принимать на вход текстовую информацию (HTML, TXT, DOC или другое), анализировать её и категоризировать (например, научная статья или статья о Java).
Вопрос: какие книги/материалы/видео изучить, чтобы понять принципы анализа текста и его категоризации и углубиться в данную тему?

@vantfiles · 04.09.2022, 16:49

Гольдберг Й. - Нейросетевые методы в обработке естественного языка - 2019
Бенгфорт, Билбро, Охеда - Прикладной анализ текстовых данных на Python Машинное обучение и создание приложений обработки естественного языка - 2016
Васильев Ю. - Обработка естественного языка. Python и Spacy на практике (Библиотека программиста) - 2021
Хобсон Л., Ханнес Х., Коул Х. - Обработка естественного языка в действии (Для профессионалов) - 2020

Добавлено через 1 час 14 минут
Еще полистайте ссылочки, даю как есть:

Кликните здесь для просмотра всего текста

Программа на Python для статистического анализа текста
https://habr.com/ru/post/323252/

Частотный анализ русского текста и облако слов на Python
https://habr.com/ru/post/517410/

Предобработка текста в NLP -- самое главное - Приведение к начальной форме с лемматизацией на базе pymorphy2
https://python-school.ru/blog/... rocessing/

Методы лингвистического моделирования с использованием Python
https://nuancesprog.ru/p/14643/

Подсчет количества строк, слов и букв в текстовом файле
https://pythoner.name/qty-lines-words-letters

Реализация на Python многопоточной обработки данных для парсинга сайтов
https://habr.com/ru/post/323238/

Парсим weblancer используя PROXY
https://habr.com/ru/post/322608/

Руководство для практиков по обработке естественного языка (часть I) - обработка и понимание текста
https://machinelearningmastery... abfd13e72/

Книга «Обработка естественного языка в действии»
https://habr.com/ru/company/piter/blog/512790/

Семантический анализ для автоматической обработки естественного языка -- Здесь есть словари.
https://rdc.grfc.ru/2021/09/semantic_analysis/

https://coollib.net/b/544602/la -- пример статистических данных, полученных при анализе текста

10 бесплатных ресурсов для обучения обработке естественного языка
https://nuancesprog.ru/p/12446/

A curated list of resources dedicated to Natural Language Processing
https://github.com/keon/awesome-nlp

Учебник NLTK
https://coderlessons.com/tutor... ebnik-nltk

----------------------------------------------------------------

Библиотеки

4) pymorphy2

pip install pymorphy2

Морфологический анализатор pymorphy2
https://pymorphy2.readthedocs.io/en/stable/

----------------------------------------------------------------
5) NLTK is a leading platform for building Python programs to work with human language data.

https://www.nltk.org/

pip install nltk

Еще нужна установка данных:

>>> import nltk
>>> nltk.download()

Сайт библиотеки
https://www.nltk.org/

Куча данных:
https://www.nltk.org/nltk_data/

----------------------------------------------------------------

6) wordcloud

pip install wordcloud

----------------------------------------------------------------

Keras documentation: https://keras.io/documentation/.
Ekphrasis documentation: https://github.com/cbaziotis/ekphrasis.
Scikit-learn documentation: http://scikit-learn.org/stable/documentation.html.

----------------------------------------------------------------

Библиотека машинного перевода
http://www2.statmt.org/moses/i... n.HomePage

Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk -- голос-в-текст
https://proglib.io/p/reshaem-z... 2022-06-30

----------------------------------------------------------------

NLP и визуализация текста на примере твитов о президентских выборах в США
https://proglib.io/p/nlp-i-viz... 2021-06-10

Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText
https://proglib.io/p/praktiche... 2021-08-28

Обзор четырёх популярных NLP-моделей (!!!!!!!)
https://proglib.io/p/obzor-che... 2020-04-21

NLP – это весело! Обработка естественного языка на Python
https://proglib.io/p/fun-nlp

О. Н. Ляшевская, С. А. Шаров -- НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ
http://dict.ruslang.ru/freq.php

Новый запуск курса Natural Language Processing
https://habr.com/ru/company/ods/blog/650615/
Новый запуск курса Natural Language Processing
https://habr.com/ru/company/ods/blog/578598/

Natural Language Processing. Итоги 2019 и тренды на 2020
https://habr.com/ru/company/huawei/blog/487730/

----------------------------------------------------------------

ML-библиотеки для обработки естественного языка
https://python-school.ru/wiki/nlp/

pymorphy2 — морфологической анализатор для российского и украинского текстов. В нем присутствует лемматизатор.
PyMystem3 — аналог pymorhy2 от Яндекса.
nltk — большой инструмент для работы с текстами. Предоставляет токенизатор, лемматизатор, стемминг, стоп-слова (в том числе и для русского языка).
spacy — аналог nltk, но многие функции работают быстрее. Также как и nltk, плохо работает с русским языком. Однако, могут использоваться специальные модели ru2 или spacy russian—tokenizer.
scikit-learn — самая популярна библиотека машинного обучения, которая также пересоставляет способы обработки текстов, например, TF—IDF.
gensim — библиотека предоставляет методы векторизации слов.
deeppavlov — фреймфворк для разработки чатботов и персональных помошников.
yargy — парсер для извлечения сущностей в текстах на русском языке.

----------------------------------------------------------------

(*) Cat multiple documents to the terminal. The continuation of CatMD

pip install catpandoc

(*) PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF, XPS, and eBook viewer, renderer, and toolkit. Both PyMuPDF and MuPDF are maintained and developed by Artifex Software, Inc.
MuPDF can access files in PDF, XPS, OpenXPS, CBZ, EPUB and FB2 (eBooks) formats, and it is known for its top performance and exceptional rendering quality.
With PyMuPDF you can access files with extensions like .pdf, .xps, .oxps, .cbz, .fb2 or .epub. In addition, about 10 popular image formats can also be handled like documents: .png, .jpg, .bmp, .tiff, etc.

python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf

(*) Вы также можете извлечь текст из PDF-файла, используя такие библиотеки, как extract, PyPDF2

(*) Python Tesseract

https://github.com/madmaze/pytesseract -- для OCR

(*) Для скачивания и обработки html json и прочее

pip install beautifulsoup4
pip install requests
pip install urllib3

(*) парсинг сайтов с использованием lxml, urlib3 и pyparcing.

@Mikhaylo · 04.09.2022, 20:00

Мне кажется, что для этой темы легко доступна и понятна машина опорных векторов SVM.

@andrewml · 30.09.2022, 00:13

Если уже программируете на python и хотите просто познакомится и побыстрее получить практический результат, то можете поставить себе anaconda и начать с машинного обучения - библиотеки scikit-learn.ru, вам необходимо то, где написано Классификация от него перейти к нейронным сетям (векторным представлениям), например, fasttext ну и потом уже к ИИ и deeplearning, что проще всего опробовать на библиотеке huggingface. Если нужны теоретические основы, то можете посмотреть курс "Машинное обучение" ФКН ВШЭ и/или по нейросетям. Задача хорошо решается машинным обучением, главная сложность будет заключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам. При этом еще надо будет определится могут ли классы пересекаться, может ли быть у текста сразу две-пять тем, т.е. может ли быть научная статья о Java и т.п. Первая часть задачи (HTML, TXT, DOC или другое) с классификацей не связана, вам надо будет найти библиотеки преобразующие входную информацию в разных форматах в обычный unicode текст, а уже его обрабатывать и классифицировать.

@vantfiles · 30.09.2022, 02:54

Сообщение от andrewml

Если уже программируете на python

Свет клином не сошелся.

Сообщение от andrewml

Задача хорошо решается машинным обучением

Кабы раньше то знать.

Сообщение от andrewml

аключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам

Ишь ты...

Не обращайте внимание, это я так, по теме брюзжу.

@Nick07 · 30.09.2022, 09:18

Базовая классификация текстов:
https://www.tensorflow.org/tut... sification

@Sanedi 1 / 1 / 0 Регистрация: 22.10.2017 Сообщений: 52
		1
	Анализ и категоризация текстовой информации 04.09.2022, 14:51. Показов 903. Ответов 5 Метки нет (Все метки) Задача: создать ИИ, который будет принимать на вход текстовую информацию (HTML, TXT, DOC или другое), анализировать её и категоризировать (например, научная статья или статья о Java). Вопрос: какие книги/материалы/видео изучить, чтобы понять принципы анализа текста и его категоризации и углубиться в данную тему? 1

@vantfiles 1003 / 1858 / 176 Регистрация: 07.05.2013 Сообщений: 3,894 Записей в блоге: 12
	04.09.2022, 16:49	2
	Сообщение было отмечено Sanedi как решение Решение Гольдберг Й. - Нейросетевые методы в обработке естественного языка - 2019 Бенгфорт, Билбро, Охеда - Прикладной анализ текстовых данных на Python Машинное обучение и создание приложений обработки естественного языка - 2016 Васильев Ю. - Обработка естественного языка. Python и Spacy на практике (Библиотека программиста) - 2021 Хобсон Л., Ханнес Х., Коул Х. - Обработка естественного языка в действии (Для профессионалов) - 2020 Добавлено через 1 час 14 минут Еще полистайте ссылочки, даю как есть: Кликните здесь для просмотра всего текста Программа на Python для статистического анализа текста https://habr.com/ru/post/323252/ Частотный анализ русского текста и облако слов на Python https://habr.com/ru/post/517410/ Предобработка текста в NLP -- самое главное - Приведение к начальной форме с лемматизацией на базе pymorphy2 https://python-school.ru/blog/... rocessing/ Методы лингвистического моделирования с использованием Python https://nuancesprog.ru/p/14643/ Подсчет количества строк, слов и букв в текстовом файле https://pythoner.name/qty-lines-words-letters Реализация на Python многопоточной обработки данных для парсинга сайтов https://habr.com/ru/post/323238/ Парсим weblancer используя PROXY https://habr.com/ru/post/322608/ Руководство для практиков по обработке естественного языка (часть I) - обработка и понимание текста https://machinelearningmastery... abfd13e72/ Книга «Обработка естественного языка в действии» https://habr.com/ru/company/piter/blog/512790/ Семантический анализ для автоматической обработки естественного языка -- Здесь есть словари. https://rdc.grfc.ru/2021/09/semantic_analysis/ https://coollib.net/b/544602/la -- пример статистических данных, полученных при анализе текста 10 бесплатных ресурсов для обучения обработке естественного языка https://nuancesprog.ru/p/12446/ A curated list of resources dedicated to Natural Language Processing https://github.com/keon/awesome-nlp Учебник NLTK https://coderlessons.com/tutor... ebnik-nltk ---------------------------------------------------------------- Библиотеки 4) pymorphy2 pip install pymorphy2 Морфологический анализатор pymorphy2 https://pymorphy2.readthedocs.io/en/stable/ ---------------------------------------------------------------- 5) NLTK is a leading platform for building Python programs to work with human language data. https://www.nltk.org/ pip install nltk Еще нужна установка данных: >>> import nltk >>> nltk.download() Сайт библиотеки https://www.nltk.org/ Куча данных: https://www.nltk.org/nltk_data/ ---------------------------------------------------------------- 6) wordcloud pip install wordcloud ---------------------------------------------------------------- Keras documentation: https://keras.io/documentation/. Ekphrasis documentation: https://github.com/cbaziotis/ekphrasis. Scikit-learn documentation: http://scikit-learn.org/stable/documentation.html. ---------------------------------------------------------------- Библиотека машинного перевода http://www2.statmt.org/moses/i... n.HomePage Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk -- голос-в-текст https://proglib.io/p/reshaem-z... 2022-06-30 ---------------------------------------------------------------- NLP и визуализация текста на примере твитов о президентских выборах в США https://proglib.io/p/nlp-i-viz... 2021-06-10 Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText https://proglib.io/p/praktiche... 2021-08-28 Обзор четырёх популярных NLP-моделей (!!!!!!!) https://proglib.io/p/obzor-che... 2020-04-21 NLP – это весело! Обработка естественного языка на Python https://proglib.io/p/fun-nlp О. Н. Ляшевская, С. А. Шаров -- НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ http://dict.ruslang.ru/freq.php Новый запуск курса Natural Language Processing https://habr.com/ru/company/ods/blog/650615/ Новый запуск курса Natural Language Processing https://habr.com/ru/company/ods/blog/578598/ Natural Language Processing. Итоги 2019 и тренды на 2020 https://habr.com/ru/company/huawei/blog/487730/ ---------------------------------------------------------------- ML-библиотеки для обработки естественного языка https://python-school.ru/wiki/nlp/ pymorphy2 — морфологической анализатор для российского и украинского текстов. В нем присутствует лемматизатор. PyMystem3 — аналог pymorhy2 от Яндекса. nltk — большой инструмент для работы с текстами. Предоставляет токенизатор, лемматизатор, стемминг, стоп-слова (в том числе и для русского языка). spacy — аналог nltk, но многие функции работают быстрее. Также как и nltk, плохо работает с русским языком. Однако, могут использоваться специальные модели ru2 или spacy russian—tokenizer. scikit-learn — самая популярна библиотека машинного обучения, которая также пересоставляет способы обработки текстов, например, TF—IDF. gensim — библиотека предоставляет методы векторизации слов. deeppavlov — фреймфворк для разработки чатботов и персональных помошников. yargy — парсер для извлечения сущностей в текстах на русском языке. ---------------------------------------------------------------- () Cat multiple documents to the terminal. The continuation of CatMD pip install catpandoc () PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF, XPS, and eBook viewer, renderer, and toolkit. Both PyMuPDF and MuPDF are maintained and developed by Artifex Software, Inc. MuPDF can access files in PDF, XPS, OpenXPS, CBZ, EPUB and FB2 (eBooks) formats, and it is known for its top performance and exceptional rendering quality. With PyMuPDF you can access files with extensions like .pdf, .xps, .oxps, .cbz, .fb2 or .epub. In addition, about 10 popular image formats can also be handled like documents: .png, .jpg, .bmp, .tiff, etc. python -m pip install --upgrade pip python -m pip install --upgrade pymupdf () Вы также можете извлечь текст из PDF-файла, используя такие библиотеки, как extract, PyPDF2 () Python Tesseract https://github.com/madmaze/pytesseract -- для OCR () Для скачивания и обработки html json и прочее pip install beautifulsoup4 pip install requests pip install urllib3 () парсинг сайтов с использованием lxml, urlib3 и pyparcing. 3

@Mikhaylo 646 / 522 / 72 Регистрация: 20.09.2014 Сообщений: 3,356
	04.09.2022, 20:00	3
	Мне кажется, что для этой темы легко доступна и понятна машина опорных векторов SVM. 1

@andrewml 6 / 6 / 0 Регистрация: 23.05.2020 Сообщений: 31
	30.09.2022, 00:13	4
	Если уже программируете на python и хотите просто познакомится и побыстрее получить практический результат, то можете поставить себе anaconda и начать с машинного обучения - библиотеки scikit-learn.ru, вам необходимо то, где написано Классификация от него перейти к нейронным сетям (векторным представлениям), например, fasttext ну и потом уже к ИИ и deeplearning, что проще всего опробовать на библиотеке huggingface. Если нужны теоретические основы, то можете посмотреть курс "Машинное обучение" ФКН ВШЭ и/или по нейросетям. Задача хорошо решается машинным обучением, главная сложность будет заключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам. При этом еще надо будет определится могут ли классы пересекаться, может ли быть у текста сразу две-пять тем, т.е. может ли быть научная статья о Java и т.п. Первая часть задачи (HTML, TXT, DOC или другое) с классификацей не связана, вам надо будет найти библиотеки преобразующие входную информацию в разных форматах в обычный unicode текст, а уже его обрабатывать и классифицировать. 1

@vantfiles 1003 / 1858 / 176 Регистрация: 07.05.2013 Сообщений: 3,894 Записей в блоге: 12
	30.09.2022, 02:54	5
	Сообщение от andrewml Если уже программируете на python Свет клином не сошелся. Сообщение от andrewml Задача хорошо решается машинным обучением Кабы раньше то знать. Сообщение от andrewml аключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам Ишь ты... Не обращайте внимание, это я так, по теме брюзжу. 0

@Nick07 533 / 438 / 47 Регистрация: 17.07.2013 Сообщений: 2,236
	30.09.2022, 09:18	6
	Базовая классификация текстов: https://www.tensorflow.org/tut... sification 0

Анализ и категоризация текстовой информации

Решение