Форум программистов, компьютерный форум, киберфорум
Искусственный интеллект
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/5: Рейтинг темы: голосов - 5, средняя оценка - 4.80
1 / 1 / 0
Регистрация: 22.10.2017
Сообщений: 52
1

Анализ и категоризация текстовой информации

04.09.2022, 14:51. Показов 903. Ответов 5
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Задача: создать ИИ, который будет принимать на вход текстовую информацию (HTML, TXT, DOC или другое), анализировать её и категоризировать (например, научная статья или статья о Java).
Вопрос: какие книги/материалы/видео изучить, чтобы понять принципы анализа текста и его категоризации и углубиться в данную тему?
1
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
04.09.2022, 14:51
Ответы с готовыми решениями:

Сжатие текстовой информации, и преобразование сжатой информации в исходное состояние
Составить программу, позволяющую сжимать текстовую информацию ,а затем преобразовать сжатую...

Анализ текстовой строки
Здравствуйте форумчане. Есть строка хранится она в массиве char str. В неё записываем строку вида...

Обработка текстовой информации
В ниже приведенном задании необходимо: 1. читать исходный текст, символьные строки и т.п. из...

Обработка текстовой информации c#
Дан текс состоящий не менее из 10 слов .напечатать все слова из текста,отличные от слова hello

Кодирование текстовой информации
Здравствуйте! Вопрос который задам может показаться смешным, но никак не въеду, каким способом...

5
1003 / 1858 / 176
Регистрация: 07.05.2013
Сообщений: 3,894
Записей в блоге: 12
04.09.2022, 16:49 2
Лучший ответ Сообщение было отмечено Sanedi как решение

Решение

Гольдберг Й. - Нейросетевые методы в обработке естественного языка - 2019
Бенгфорт, Билбро, Охеда - Прикладной анализ текстовых данных на Python Машинное обучение и создание приложений обработки естественного языка - 2016
Васильев Ю. - Обработка естественного языка. Python и Spacy на практике (Библиотека программиста) - 2021
Хобсон Л., Ханнес Х., Коул Х. - Обработка естественного языка в действии (Для профессионалов) - 2020

Добавлено через 1 час 14 минут
Еще полистайте ссылочки, даю как есть:

Кликните здесь для просмотра всего текста


Программа на Python для статистического анализа текста
https://habr.com/ru/post/323252/

Частотный анализ русского текста и облако слов на Python
https://habr.com/ru/post/517410/

Предобработка текста в NLP -- самое главное - Приведение к начальной форме с лемматизацией на базе pymorphy2
https://python-school.ru/blog/... rocessing/

Методы лингвистического моделирования с использованием Python
https://nuancesprog.ru/p/14643/

Подсчет количества строк, слов и букв в текстовом файле
https://pythoner.name/qty-lines-words-letters

Реализация на Python многопоточной обработки данных для парсинга сайтов
https://habr.com/ru/post/323238/

Парсим weblancer используя PROXY
https://habr.com/ru/post/322608/

Руководство для практиков по обработке естественного языка (часть I) - обработка и понимание текста
https://machinelearningmastery... abfd13e72/

Книга «Обработка естественного языка в действии»
https://habr.com/ru/company/piter/blog/512790/

Семантический анализ для автоматической обработки естественного языка -- Здесь есть словари.
https://rdc.grfc.ru/2021/09/semantic_analysis/

https://coollib.net/b/544602/la -- пример статистических данных, полученных при анализе текста

10 бесплатных ресурсов для обучения обработке естественного языка
https://nuancesprog.ru/p/12446/

A curated list of resources dedicated to Natural Language Processing
https://github.com/keon/awesome-nlp

Учебник NLTK
https://coderlessons.com/tutor... ebnik-nltk

----------------------------------------------------------------

Библиотеки


4) pymorphy2

pip install pymorphy2

Морфологический анализатор pymorphy2
https://pymorphy2.readthedocs.io/en/stable/

----------------------------------------------------------------
5) NLTK is a leading platform for building Python programs to work with human language data.

https://www.nltk.org/

pip install nltk

Еще нужна установка данных:

>>> import nltk
>>> nltk.download()

Сайт библиотеки
https://www.nltk.org/

Куча данных:
https://www.nltk.org/nltk_data/

----------------------------------------------------------------

6) wordcloud

pip install wordcloud

----------------------------------------------------------------

Keras documentation: https://keras.io/documentation/.
Ekphrasis documentation: https://github.com/cbaziotis/ekphrasis.
Scikit-learn documentation: http://scikit-learn.org/stable/documentation.html.

----------------------------------------------------------------

Библиотека машинного перевода
http://www2.statmt.org/moses/i... n.HomePage

Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk -- голос-в-текст
https://proglib.io/p/reshaem-z... 2022-06-30

----------------------------------------------------------------

NLP и визуализация текста на примере твитов о президентских выборах в США
https://proglib.io/p/nlp-i-viz... 2021-06-10

Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText
https://proglib.io/p/praktiche... 2021-08-28

Обзор четырёх популярных NLP-моделей (!!!!!!!)
https://proglib.io/p/obzor-che... 2020-04-21

NLP – это весело! Обработка естественного языка на Python
https://proglib.io/p/fun-nlp

О. Н. Ляшевская, С. А. Шаров -- НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ
http://dict.ruslang.ru/freq.php

Новый запуск курса Natural Language Processing
https://habr.com/ru/company/ods/blog/650615/
Новый запуск курса Natural Language Processing
https://habr.com/ru/company/ods/blog/578598/

Natural Language Processing. Итоги 2019 и тренды на 2020
https://habr.com/ru/company/huawei/blog/487730/

----------------------------------------------------------------

ML-библиотеки для обработки естественного языка
https://python-school.ru/wiki/nlp/

pymorphy2 — морфологической анализатор для российского и украинского текстов. В нем присутствует лемматизатор.
PyMystem3 — аналог pymorhy2 от Яндекса.
nltk — большой инструмент для работы с текстами. Предоставляет токенизатор, лемматизатор, стемминг, стоп-слова (в том числе и для русского языка).
spacy — аналог nltk, но многие функции работают быстрее. Также как и nltk, плохо работает с русским языком. Однако, могут использоваться специальные модели ru2 или spacy russian—tokenizer.
scikit-learn — самая популярна библиотека машинного обучения, которая также пересоставляет способы обработки текстов, например, TF—IDF.
gensim — библиотека предоставляет методы векторизации слов.
deeppavlov — фреймфворк для разработки чатботов и персональных помошников.
yargy — парсер для извлечения сущностей в текстах на русском языке.

----------------------------------------------------------------

(*) Cat multiple documents to the terminal. The continuation of CatMD

pip install catpandoc

(*) PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF, XPS, and eBook viewer, renderer, and toolkit. Both PyMuPDF and MuPDF are maintained and developed by Artifex Software, Inc.
MuPDF can access files in PDF, XPS, OpenXPS, CBZ, EPUB and FB2 (eBooks) formats, and it is known for its top performance and exceptional rendering quality.
With PyMuPDF you can access files with extensions like .pdf, .xps, .oxps, .cbz, .fb2 or .epub. In addition, about 10 popular image formats can also be handled like documents: .png, .jpg, .bmp, .tiff, etc.

python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf

(*) Вы также можете извлечь текст из PDF-файла, используя такие библиотеки, как extract, PyPDF2

(*) Python Tesseract

https://github.com/madmaze/pytesseract -- для OCR

(*) Для скачивания и обработки html json и прочее

pip install beautifulsoup4
pip install requests
pip install urllib3

(*) парсинг сайтов с использованием lxml, urlib3 и pyparcing.

3
646 / 522 / 72
Регистрация: 20.09.2014
Сообщений: 3,356
04.09.2022, 20:00 3
Мне кажется, что для этой темы легко доступна и понятна машина опорных векторов SVM.
1
6 / 6 / 0
Регистрация: 23.05.2020
Сообщений: 31
30.09.2022, 00:13 4
Если уже программируете на python и хотите просто познакомится и побыстрее получить практический результат, то можете поставить себе anaconda и начать с машинного обучения - библиотеки scikit-learn.ru, вам необходимо то, где написано Классификация от него перейти к нейронным сетям (векторным представлениям), например, fasttext ну и потом уже к ИИ и deeplearning, что проще всего опробовать на библиотеке huggingface. Если нужны теоретические основы, то можете посмотреть курс "Машинное обучение" ФКН ВШЭ и/или по нейросетям. Задача хорошо решается машинным обучением, главная сложность будет заключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам. При этом еще надо будет определится могут ли классы пересекаться, может ли быть у текста сразу две-пять тем, т.е. может ли быть научная статья о Java и т.п. Первая часть задачи (HTML, TXT, DOC или другое) с классификацей не связана, вам надо будет найти библиотеки преобразующие входную информацию в разных форматах в обычный unicode текст, а уже его обрабатывать и классифицировать.
1
1003 / 1858 / 176
Регистрация: 07.05.2013
Сообщений: 3,894
Записей в блоге: 12
30.09.2022, 02:54 5
Цитата Сообщение от andrewml Посмотреть сообщение
Если уже программируете на python
Свет клином не сошелся.

Цитата Сообщение от andrewml Посмотреть сообщение
Задача хорошо решается машинным обучением
Кабы раньше то знать.

Цитата Сообщение от andrewml Посмотреть сообщение
аключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам
Ишь ты...

Не обращайте внимание, это я так, по теме брюзжу.
0
533 / 438 / 47
Регистрация: 17.07.2013
Сообщений: 2,236
30.09.2022, 09:18 6
Базовая классификация текстов:
https://www.tensorflow.org/tut... sification
0
30.09.2022, 09:18
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
30.09.2022, 09:18
Помогаю со студенческими работами здесь

обработка текстовой информации
Люди, помогите решить задачу, очень срочно нужна: выяснить, имеются ли в заданном тексте...

Обработка текстовой информации
Задача 5.1. ОБРАБОТКА ТЕКСТА Дан текст. Способ описания текста (массив символов, строка, текстовый...

Обработка текстовой информации
Дана строка, содержащая английский текст. Найти количество слов, начинающихся с буквы b. Надо...

Обработка текстовой информации
Добрый вечер. Нужна помощь в написании программы на бейсике. Буду благодарен Задание: Дан текст....

Просмотр текстовой информации
Здравствуйте! Подскажите пожалуйста, как сделать так, что-бы при выполнении кода: def...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru