1 / 1 / 0
Регистрация: 22.10.2017
Сообщений: 52
|
|
1 | |
Анализ и категоризация текстовой информации04.09.2022, 14:51. Показов 903. Ответов 5
Метки нет (Все метки)
Задача: создать ИИ, который будет принимать на вход текстовую информацию (HTML, TXT, DOC или другое), анализировать её и категоризировать (например, научная статья или статья о Java).
Вопрос: какие книги/материалы/видео изучить, чтобы понять принципы анализа текста и его категоризации и углубиться в данную тему?
1
|
04.09.2022, 14:51 | |
Ответы с готовыми решениями:
5
Сжатие текстовой информации, и преобразование сжатой информации в исходное состояние Анализ текстовой строки Обработка текстовой информации Обработка текстовой информации c# Кодирование текстовой информации |
04.09.2022, 16:49 | 2 |
Сообщение было отмечено Sanedi как решение
Решение
Гольдберг Й. - Нейросетевые методы в обработке естественного языка - 2019
Бенгфорт, Билбро, Охеда - Прикладной анализ текстовых данных на Python Машинное обучение и создание приложений обработки естественного языка - 2016 Васильев Ю. - Обработка естественного языка. Python и Spacy на практике (Библиотека программиста) - 2021 Хобсон Л., Ханнес Х., Коул Х. - Обработка естественного языка в действии (Для профессионалов) - 2020 Добавлено через 1 час 14 минут Еще полистайте ссылочки, даю как есть: Кликните здесь для просмотра всего текста
Программа на Python для статистического анализа текста https://habr.com/ru/post/323252/ Частотный анализ русского текста и облако слов на Python https://habr.com/ru/post/517410/ Предобработка текста в NLP -- самое главное - Приведение к начальной форме с лемматизацией на базе pymorphy2 https://python-school.ru/blog/... rocessing/ Методы лингвистического моделирования с использованием Python https://nuancesprog.ru/p/14643/ Подсчет количества строк, слов и букв в текстовом файле https://pythoner.name/qty-lines-words-letters Реализация на Python многопоточной обработки данных для парсинга сайтов https://habr.com/ru/post/323238/ Парсим weblancer используя PROXY https://habr.com/ru/post/322608/ Руководство для практиков по обработке естественного языка (часть I) - обработка и понимание текста https://machinelearningmastery... abfd13e72/ Книга «Обработка естественного языка в действии» https://habr.com/ru/company/piter/blog/512790/ Семантический анализ для автоматической обработки естественного языка -- Здесь есть словари. https://rdc.grfc.ru/2021/09/semantic_analysis/ https://coollib.net/b/544602/la -- пример статистических данных, полученных при анализе текста 10 бесплатных ресурсов для обучения обработке естественного языка https://nuancesprog.ru/p/12446/ A curated list of resources dedicated to Natural Language Processing https://github.com/keon/awesome-nlp Учебник NLTK https://coderlessons.com/tutor... ebnik-nltk ---------------------------------------------------------------- Библиотеки 4) pymorphy2 pip install pymorphy2 Морфологический анализатор pymorphy2 https://pymorphy2.readthedocs.io/en/stable/ ---------------------------------------------------------------- 5) NLTK is a leading platform for building Python programs to work with human language data. https://www.nltk.org/ pip install nltk Еще нужна установка данных: >>> import nltk >>> nltk.download() Сайт библиотеки https://www.nltk.org/ Куча данных: https://www.nltk.org/nltk_data/ ---------------------------------------------------------------- 6) wordcloud pip install wordcloud ---------------------------------------------------------------- Keras documentation: https://keras.io/documentation/. Ekphrasis documentation: https://github.com/cbaziotis/ekphrasis. Scikit-learn documentation: http://scikit-learn.org/stable/documentation.html. ---------------------------------------------------------------- Библиотека машинного перевода http://www2.statmt.org/moses/i... n.HomePage Решаем задачу перевода русской речи в текст с помощью Python и библиотеки Vosk -- голос-в-текст https://proglib.io/p/reshaem-z... 2022-06-30 ---------------------------------------------------------------- NLP и визуализация текста на примере твитов о президентских выборах в США https://proglib.io/p/nlp-i-viz... 2021-06-10 Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText https://proglib.io/p/praktiche... 2021-08-28 Обзор четырёх популярных NLP-моделей (!!!!!!!) https://proglib.io/p/obzor-che... 2020-04-21 NLP – это весело! Обработка естественного языка на Python https://proglib.io/p/fun-nlp О. Н. Ляшевская, С. А. Шаров -- НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ http://dict.ruslang.ru/freq.php Новый запуск курса Natural Language Processing https://habr.com/ru/company/ods/blog/650615/ Новый запуск курса Natural Language Processing https://habr.com/ru/company/ods/blog/578598/ Natural Language Processing. Итоги 2019 и тренды на 2020 https://habr.com/ru/company/huawei/blog/487730/ ---------------------------------------------------------------- ML-библиотеки для обработки естественного языка https://python-school.ru/wiki/nlp/ pymorphy2 — морфологической анализатор для российского и украинского текстов. В нем присутствует лемматизатор. PyMystem3 — аналог pymorhy2 от Яндекса. nltk — большой инструмент для работы с текстами. Предоставляет токенизатор, лемматизатор, стемминг, стоп-слова (в том числе и для русского языка). spacy — аналог nltk, но многие функции работают быстрее. Также как и nltk, плохо работает с русским языком. Однако, могут использоваться специальные модели ru2 или spacy russian—tokenizer. scikit-learn — самая популярна библиотека машинного обучения, которая также пересоставляет способы обработки текстов, например, TF—IDF. gensim — библиотека предоставляет методы векторизации слов. deeppavlov — фреймфворк для разработки чатботов и персональных помошников. yargy — парсер для извлечения сущностей в текстах на русском языке. ---------------------------------------------------------------- (*) Cat multiple documents to the terminal. The continuation of CatMD pip install catpandoc (*) PyMuPDF adds Python bindings and abstractions to MuPDF, a lightweight PDF, XPS, and eBook viewer, renderer, and toolkit. Both PyMuPDF and MuPDF are maintained and developed by Artifex Software, Inc. MuPDF can access files in PDF, XPS, OpenXPS, CBZ, EPUB and FB2 (eBooks) formats, and it is known for its top performance and exceptional rendering quality. With PyMuPDF you can access files with extensions like .pdf, .xps, .oxps, .cbz, .fb2 or .epub. In addition, about 10 popular image formats can also be handled like documents: .png, .jpg, .bmp, .tiff, etc. python -m pip install --upgrade pip python -m pip install --upgrade pymupdf (*) Вы также можете извлечь текст из PDF-файла, используя такие библиотеки, как extract, PyPDF2 (*) Python Tesseract https://github.com/madmaze/pytesseract -- для OCR (*) Для скачивания и обработки html json и прочее pip install beautifulsoup4 pip install requests pip install urllib3 (*) парсинг сайтов с использованием lxml, urlib3 и pyparcing.
3
|
646 / 522 / 72
Регистрация: 20.09.2014
Сообщений: 3,356
|
|
04.09.2022, 20:00 | 3 |
Мне кажется, что для этой темы легко доступна и понятна машина опорных векторов SVM.
1
|
6 / 6 / 0
Регистрация: 23.05.2020
Сообщений: 31
|
|
30.09.2022, 00:13 | 4 |
Если уже программируете на python и хотите просто познакомится и побыстрее получить практический результат, то можете поставить себе anaconda и начать с машинного обучения - библиотеки scikit-learn.ru, вам необходимо то, где написано Классификация от него перейти к нейронным сетям (векторным представлениям), например, fasttext ну и потом уже к ИИ и deeplearning, что проще всего опробовать на библиотеке huggingface. Если нужны теоретические основы, то можете посмотреть курс "Машинное обучение" ФКН ВШЭ и/или по нейросетям. Задача хорошо решается машинным обучением, главная сложность будет заключаться в ручном создании хорошего сбалансированного обучающего набора по нужным вам классам. При этом еще надо будет определится могут ли классы пересекаться, может ли быть у текста сразу две-пять тем, т.е. может ли быть научная статья о Java и т.п. Первая часть задачи (HTML, TXT, DOC или другое) с классификацей не связана, вам надо будет найти библиотеки преобразующие входную информацию в разных форматах в обычный unicode текст, а уже его обрабатывать и классифицировать.
1
|
533 / 438 / 47
Регистрация: 17.07.2013
Сообщений: 2,236
|
|
30.09.2022, 09:18 | 6 |
Базовая классификация текстов:
https://www.tensorflow.org/tut... sification
0
|
30.09.2022, 09:18 | |
30.09.2022, 09:18 | |
Помогаю со студенческими работами здесь
6
обработка текстовой информации Обработка текстовой информации Обработка текстовой информации Обработка текстовой информации Просмотр текстовой информации Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |