Форум программистов, компьютерный форум, киберфорум
Алгоритмы
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.72/25: Рейтинг темы: голосов - 25, средняя оценка - 4.72
20 / 20 / 12
Регистрация: 15.05.2012
Сообщений: 169

Алгоритм схожести текстов

01.05.2019, 11:24. Показов 4569. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток, дорогие форумчане. Подскажите пожалуйста, есть необходимость сравнить один текст с другим и выдать примерно его автора.
Что уже имеется:
1) Программа, которая сканирует текст, разбивает на слова и записывает в конечный массив {слово, кол-во повторений слова в тексте, процентное соотношение этого слова относительно всего текста}
2) Далее вводим автора и сохраняем в формате Json

Теперь нужно реализовать простой алгоритм, но не могу его додумать - кидаю на вход предположим часть текста или текст того же автора, он его разбивает на такой же массив Word[]{Text, Count, PercentOfUses} и потом перебирая все ранее занесенные книги нужно сравнить процент использования слов и вывести максимально схожий, ну а затем вывести его автора.
Сам не могу составить алгоритм, как он должен сравнивать и находить максимально лучший враиант.
Спасибо большое
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
01.05.2019, 11:24
Ответы с готовыми решениями:

Алгоритм степени схожести текстов по смыслу
Доброго времени суток уважаемые форумчане! Имеется текст1, который является "шаблоном". Нужно проверить является ли текст2...

Алгоритм сравнения текстов
Нужно реализовать алгоритм для сравнения 2 текстов. Найти, и подсветить отличия второго текста от первого(выделить цветом пропущенную...

Алгоритм сравнения текстов с поиском одинаковых участков
Нужна идея (хотя бы) алгоритма сравнения 2х текстов, типа как утилита Windows Comander - > сравнить по содержимому, т.е. поиск...

3
 Аватар для vantfiles
1018 / 1914 / 177
Регистрация: 07.05.2013
Сообщений: 3,931
Записей в блоге: 12
01.05.2019, 17:27
Не уверен, что это будет лучший вариант с точки зрения лингвистики... Я бы выкинул предлоги, союзы, частицы и прочее...

Для каждого слова проверяемого текста находим квадрат разности процентных соотношений.
Далее находим среднее арифметическое полученных квадратов. Чем ближе текст к шаблону, тем ближе полученное число должно быть к нулю. (если автора действительно характеризует процентное соотношение слова относительно всего текста)
0
2621 / 1632 / 266
Регистрация: 19.02.2010
Сообщений: 4,330
01.05.2019, 22:01
Цитата Сообщение от skew Посмотреть сообщение
Программа, которая сканирует текст, разбивает на слова и записывает в конечный массив {слово, кол-во повторений слова в тексте, процентное соотношение этого слова относительно всего текста}
Словарь должен быть общим, т.е. должен строиться по всему набору эталонных текстов.
Т.е. потом, при кодировании каждого отдельного текста, в соответствующем тексту векторе может возникнуть куча нулей (соответствующих частотам слов, отсутствующих в этом тексте) - но при этом исчезнет необходимость запоминать ещё и каждое слово (весь символьный словарь будет храниться отдельно и однократно, и для любого индекса элемента в кодирующем некоторый текст векторе нужное слово легко можно будет взять из словаря, если это понадобится).
Ну а вычислять евклидовы расстояния между векторами одинаковой длины - это очень просто.

В качестве усложнений -
1) вместо частот слов - считать https://ru.wikipedia.org/wiki/TF-IDF
2) работать не в исходном пространстве большой размерности (ведь в словаре будет несколько тысяч слов), а в пространстве главных компонент, т.е. https://ru.wikipedia.org/wiki/... кий_анализ
0
43 / 31 / 3
Регистрация: 27.03.2016
Сообщений: 116
02.05.2019, 12:39
Вариант только один:
Анализировать максимум возможного. Не только повторяемость разных слов.
Но и длину предложений, частоты знаков препинания, частоты разных частей речи, употребление редких слов (особенно цены придуманные авторами слова или очень редкие), хорошо бы словосочетания проанализировать... В общем всё, что только можно.
И сделать это нужно по разным авторам. Только накопив значительную базу данных получится попробовать сопоставить новый текст с ними.

ПС. Посмотри для примера: https://fantlab.ru/work143072/lp
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
02.05.2019, 12:39
Помогаю со студенческими работами здесь

Подбор алгоритмов для вычисления схожести 2 текстов
Доброго времени суток! У меня стоит задача написания программы для поиска статей-дубликатов исходной статьи. Коротко о моем...

поиск схожести
допустим искомое слово "распространенную" но в базе есть только "распространённую" (через ё), как задать поиск по базе чтобы если была...

Определение меры схожести
Здравствуйте, прошу помощи в решении такой задачи. Есть два векотра P1={15;6;3;-9;4} P2={1;4;-4;2;9} и вектор Q ={6;4;10;8;-29}. Необходимо...

Процент схожести строк
Всем здрасте. Вообщем дали мне по лабораторным ОСиСП такое задание: 1) Выполнить индивидуальное задание последовательным алгоритмом; ...

Процент схожести 2-ух чисел
Нужно найти процент схожести 2-ух чисел, допустим числа 99 и 98 они похожи на 99% ид как сделать ? можете подсказать ?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru