hilda92

Алгоритм и структура для поиска большого количества строк в другом массиве строк

28.11.2013, 02:05. Показов 1188. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!

Я решаю следующую задачу:
Есть файл со "строками" (средняя длина которых 40-50 символов) и таких строк порядка 100000. Есть другой файл, в котором в каждой строке написаны "слова"(средняя длина 8-15 символов). Требуется для каждой "строки" из первого файла вывести все "слова"(из второго файла), которые содержатся в "строке".

Я пробую подобрать наиболее быстрый алгоритм для работы. Есть время на препроцессинг и в принципе - нет ограничений на использование памяти.

Поскольку искать надо ВСЕ во ВСЕМ, то выходит, что общая сложность - O(m*n), где m - количество "строк" в файле, n - количество "слов" во втором файле.
Это вроде бы никак оптимизировать не выйдет. (или есть варинты?)

Так что я основной упор делаю именно в поиске подстроки в строке. (еще раз замечу, что их длины довольно маленькие - 50 - строка, 15 - подстрока)

http://algolist.manual.ru/search/esearch/index.php - тут есть сравнительние сложности алгоритмов на строках.

Сейчас я вижу следующие пути решения, посоветуйте, пожалуйста, что больше подойдет или посоветуйте, что-нибудь другое:
1) Писать алгоритм Кнута-Морриса-Пратта, который даст сложность - сумма обоих строк, то бишь около 65 операций на одну пару.
2) Объединить строки из первого файла с каким-нибудь разделителем (например #) и пробовать искать слова тем же самым КМП.
3) Построить бор(суффиксное дерево) для строки из варианта 2 и искать слова по нему... Про бор я читала, понимаю как он строится, но вот не могу понять - могу ли я в него много строк поместить? (это ведь просто добавит в него новые тернимальные состояния, так ведь?)

Язык, на котором будет реализоваться программа - Java, если знаете полезные библиотеке по теме - также буду признательна.

Заранее спасибо всем откликнувшимся!
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
28.11.2013, 02:05
Ответы с готовыми решениями:

поиск макс подстроики очень большого количества строк
Добрый день! Намекните, пожалуйста, что использовать для поиска максимальной общей подстроки 80 и более строк, каждая из которых...

Алгоритм поиска количества простых чисел в заданном массиве
алгоритм поиск количества простых чисел в заданном целочисленном массиве из 50 элементов. Помогите написать(

Хранение большого (15000) количества строк в строковом массиве
Здравствуйте! Мне нужно создать генератор слов. Я решил пойти путем словаря + генератор псевдослучайных чисел. Файл сделал вложением,...

2
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
28.11.2013, 02:22
Если не ошибаюсь, префикс-функцию и z-функцию можно как-то использовать. Одна из них позволяет проверять на вхождение нескольких подстрок - по-моему, z-функция.
0
1974 / 830 / 115
Регистрация: 01.10.2012
Сообщений: 5,018
Записей в блоге: 2
29.11.2013, 22:42
Цитата Сообщение от hilda92 Посмотреть сообщение
Здравствуйте!
Есть файл со "строками" (средняя длина которых 40-50 символов) и таких строк порядка 100000. Есть другой файл, в котором в каждой строке написаны "слова"(средняя длина 8-15 символов). Требуется для каждой "строки" из первого файла вывести все "слова"(из второго файла), которые содержатся в "строке".
Пример: ищем слово "abs". Если во втором файле есть слово "myabs" - оно должно быть выведено? Если нет (считается только слово целиком) - то все очень просто, любой ассоциативный контейнер. Иначе конечно хужее
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.11.2013, 22:42
Помогаю со студенческими работами здесь

Вставка большого количества строк
Никак не могу придумать, как наиболее элегантно сделать то, что мне нужно. Есть двумерный массив $m, причём количество строк в нём...

Удаление большого количества строк
Помогите начинающей, подскажите, пожалуйста, как избежать ошибки при удалении тысяч строк? Выдается 'Timeout Expired'. Сотни строк...

Выгрузка большого количества строк из БД
Привет. Ребята, помогите быстро решить задачу. Есть таблица данных в бд ms sql. В ней почти 3 млн. Строк которые нужно перелить в...

Ускорение добавления большого количества строк
Доброго времени суток. Оптимизирую конвертер из одной БД в другую Суть работы конвертера Добавлено через 54 минуты Цикл по...

Обработка большого количества строк одним махом
или двумя (в зависимости от силы маха) к делу: есть файл, читаем, предобрабатываем и отправляем INSERT на SQL сервер. таких...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

Новые блоги и статьи
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определенном условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru