|
hilda92
|
|
Алгоритм и структура для поиска большого количества строк в другом массиве строк28.11.2013, 02:05. Показов 1145. Ответов 2
Метки нет (Все метки)
Здравствуйте!
Я решаю следующую задачу: Есть файл со "строками" (средняя длина которых 40-50 символов) и таких строк порядка 100000. Есть другой файл, в котором в каждой строке написаны "слова"(средняя длина 8-15 символов). Требуется для каждой "строки" из первого файла вывести все "слова"(из второго файла), которые содержатся в "строке". Я пробую подобрать наиболее быстрый алгоритм для работы. Есть время на препроцессинг и в принципе - нет ограничений на использование памяти. Поскольку искать надо ВСЕ во ВСЕМ, то выходит, что общая сложность - O(m*n), где m - количество "строк" в файле, n - количество "слов" во втором файле. Это вроде бы никак оптимизировать не выйдет. (или есть варинты?) Так что я основной упор делаю именно в поиске подстроки в строке. (еще раз замечу, что их длины довольно маленькие - 50 - строка, 15 - подстрока) http://algolist.manual.ru/search/esearch/index.php - тут есть сравнительние сложности алгоритмов на строках. Сейчас я вижу следующие пути решения, посоветуйте, пожалуйста, что больше подойдет или посоветуйте, что-нибудь другое: 1) Писать алгоритм Кнута-Морриса-Пратта, который даст сложность - сумма обоих строк, то бишь около 65 операций на одну пару. 2) Объединить строки из первого файла с каким-нибудь разделителем (например #) и пробовать искать слова тем же самым КМП. 3) Построить бор(суффиксное дерево) для строки из варианта 2 и искать слова по нему... Про бор я читала, понимаю как он строится, но вот не могу понять - могу ли я в него много строк поместить? (это ведь просто добавит в него новые тернимальные состояния, так ведь?) Язык, на котором будет реализоваться программа - Java, если знаете полезные библиотеке по теме - также буду признательна. Заранее спасибо всем откликнувшимся! |
|
| 28.11.2013, 02:05 | |
|
Ответы с готовыми решениями:
2
поиск макс подстроики очень большого количества строк Алгоритм поиска количества простых чисел в заданном массиве
|
|
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
|
|
| 28.11.2013, 02:22 | |
|
Если не ошибаюсь, префикс-функцию и z-функцию можно как-то использовать. Одна из них позволяет проверять на вхождение нескольких подстрок - по-моему, z-функция.
0
|
|
| 29.11.2013, 22:42 | ||
|
0
|
||
| 29.11.2013, 22:42 | |
|
Помогаю со студенческими работами здесь
3
Вставка большого количества строк Удаление большого количества строк Выгрузка большого количества строк из БД Ускорение добавления большого количества строк Обработка большого количества строк одним махом Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
|
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11
— это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
|
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11
Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
|
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
|
|
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/
O1rJuneU_ls
https:/ / vkvideo. ru/ video-115721503_456239114
|
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ВВЕДЕНИЕ
Введу сокращения:
аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
|
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi
ветка по-частям.
коммит Create переделка под биомассу. txt
вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
|
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ *
Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во
всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
|