|
20 / 20 / 12
Регистрация: 15.05.2012
Сообщений: 169
|
|
Алгоритм схожести текстов01.05.2019, 11:24. Показов 4569. Ответов 3
Метки нет (Все метки)
Доброго времени суток, дорогие форумчане. Подскажите пожалуйста, есть необходимость сравнить один текст с другим и выдать примерно его автора.
Что уже имеется: 1) Программа, которая сканирует текст, разбивает на слова и записывает в конечный массив {слово, кол-во повторений слова в тексте, процентное соотношение этого слова относительно всего текста} 2) Далее вводим автора и сохраняем в формате Json Теперь нужно реализовать простой алгоритм, но не могу его додумать - кидаю на вход предположим часть текста или текст того же автора, он его разбивает на такой же массив Word[]{Text, Count, PercentOfUses} и потом перебирая все ранее занесенные книги нужно сравнить процент использования слов и вывести максимально схожий, ну а затем вывести его автора. Сам не могу составить алгоритм, как он должен сравнивать и находить максимально лучший враиант. Спасибо большое
0
|
|
| 01.05.2019, 11:24 | |
|
Ответы с готовыми решениями:
3
Алгоритм степени схожести текстов по смыслу Алгоритм сравнения текстов Алгоритм сравнения текстов с поиском одинаковых участков |
|
|
|
| 01.05.2019, 17:27 | |
|
Не уверен, что это будет лучший вариант с точки зрения лингвистики... Я бы выкинул предлоги, союзы, частицы и прочее...
Для каждого слова проверяемого текста находим квадрат разности процентных соотношений. Далее находим среднее арифметическое полученных квадратов. Чем ближе текст к шаблону, тем ближе полученное число должно быть к нулю. (если автора действительно характеризует процентное соотношение слова относительно всего текста)
0
|
|
|
2621 / 1632 / 266
Регистрация: 19.02.2010
Сообщений: 4,330
|
||
| 01.05.2019, 22:01 | ||
|
Т.е. потом, при кодировании каждого отдельного текста, в соответствующем тексту векторе может возникнуть куча нулей (соответствующих частотам слов, отсутствующих в этом тексте) - но при этом исчезнет необходимость запоминать ещё и каждое слово (весь символьный словарь будет храниться отдельно и однократно, и для любого индекса элемента в кодирующем некоторый текст векторе нужное слово легко можно будет взять из словаря, если это понадобится). Ну а вычислять евклидовы расстояния между векторами одинаковой длины - это очень просто. В качестве усложнений - 1) вместо частот слов - считать https://ru.wikipedia.org/wiki/TF-IDF 2) работать не в исходном пространстве большой размерности (ведь в словаре будет несколько тысяч слов), а в пространстве главных компонент, т.е. https://ru.wikipedia.org/wiki/... кий_анализ
0
|
||
|
43 / 31 / 3
Регистрация: 27.03.2016
Сообщений: 116
|
|
| 02.05.2019, 12:39 | |
|
Вариант только один:
Анализировать максимум возможного. Не только повторяемость разных слов. Но и длину предложений, частоты знаков препинания, частоты разных частей речи, употребление редких слов (особенно цены придуманные авторами слова или очень редкие), хорошо бы словосочетания проанализировать... В общем всё, что только можно. И сделать это нужно по разным авторам. Только накопив значительную базу данных получится попробовать сопоставить новый текст с ними. ПС. Посмотри для примера: https://fantlab.ru/work143072/lp
0
|
|
| 02.05.2019, 12:39 | |
|
Помогаю со студенческими работами здесь
4
Подбор алгоритмов для вычисления схожести 2 текстов поиск схожести Определение меры схожести Процент схожести строк Процент схожести 2-ух чисел Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|