|
hilda92
|
|
Алгоритм и структура для поиска большого количества строк в другом массиве строк28.11.2013, 02:05. Показов 1188. Ответов 2
Метки нет (Все метки)
Здравствуйте!
Я решаю следующую задачу: Есть файл со "строками" (средняя длина которых 40-50 символов) и таких строк порядка 100000. Есть другой файл, в котором в каждой строке написаны "слова"(средняя длина 8-15 символов). Требуется для каждой "строки" из первого файла вывести все "слова"(из второго файла), которые содержатся в "строке". Я пробую подобрать наиболее быстрый алгоритм для работы. Есть время на препроцессинг и в принципе - нет ограничений на использование памяти. Поскольку искать надо ВСЕ во ВСЕМ, то выходит, что общая сложность - O(m*n), где m - количество "строк" в файле, n - количество "слов" во втором файле. Это вроде бы никак оптимизировать не выйдет. (или есть варинты?) Так что я основной упор делаю именно в поиске подстроки в строке. (еще раз замечу, что их длины довольно маленькие - 50 - строка, 15 - подстрока) http://algolist.manual.ru/search/esearch/index.php - тут есть сравнительние сложности алгоритмов на строках. Сейчас я вижу следующие пути решения, посоветуйте, пожалуйста, что больше подойдет или посоветуйте, что-нибудь другое: 1) Писать алгоритм Кнута-Морриса-Пратта, который даст сложность - сумма обоих строк, то бишь около 65 операций на одну пару. 2) Объединить строки из первого файла с каким-нибудь разделителем (например #) и пробовать искать слова тем же самым КМП. 3) Построить бор(суффиксное дерево) для строки из варианта 2 и искать слова по нему... Про бор я читала, понимаю как он строится, но вот не могу понять - могу ли я в него много строк поместить? (это ведь просто добавит в него новые тернимальные состояния, так ведь?) Язык, на котором будет реализоваться программа - Java, если знаете полезные библиотеке по теме - также буду признательна. Заранее спасибо всем откликнувшимся! |
|
| 28.11.2013, 02:05 | |
|
Ответы с готовыми решениями:
2
поиск макс подстроики очень большого количества строк Алгоритм поиска количества простых чисел в заданном массиве
|
|
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
|
|
| 28.11.2013, 02:22 | |
|
Если не ошибаюсь, префикс-функцию и z-функцию можно как-то использовать. Одна из них позволяет проверять на вхождение нескольких подстрок - по-моему, z-функция.
0
|
|
| 29.11.2013, 22:42 | ||
|
0
|
||
| 29.11.2013, 22:42 | |
|
Помогаю со студенческими работами здесь
3
Вставка большого количества строк Удаление большого количества строк Выгрузка большого количества строк из БД Ускорение добавления большого количества строк Обработка большого количества строк одним махом Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
|||
|
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2.
Задача: отобразить спецтехнику, которая на данный момент находится в ремонте.
Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
|
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
|
Запрет удаления строк ТЧ документа при определенном условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
|
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут
Суть:
- Группа наркоманов из 10 человек.
- Только один инфицирован ВИЧ.
- Колются одной иглой.
- Колются раз в день.
- Колются последовательно через. . .
|
|
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
|
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
|
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . .
а удачный момент так и не приходит.
|
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица.
Задача: зафиксировать три левых колонки в отчете.
Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка)
/ / . . .
|