Форум программистов, компьютерный форум, киберфорум
Алгоритмы
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 1
Регистрация: 19.11.2011
Сообщений: 26

Задача на оптимизацию поиска

18.09.2013, 23:22. Показов 747. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть такая задача. Даны два текстовых файла в формате [код 8 цифр],[строка 14 символов]. Необходимо создать третий файл в котором объедены строки из первых файлов, если у них одинаковые коды.(по идее выполняется inner join)
Пример.
Первый файл
00000001 AAAAAAAAAAAAAA
04532323 CCCCCCCCCCCCCC

Второй файл
00000001 BBBBBBBBBBBBBB
04532323 DDDDDDDDDDDDDD
Результат
00000001 AAAAAAAAAAAAAA,BBBBBBBBBBBBBB
04532323 CCCCCCCCCCCCCC,DDDDDDDDDDDDDD

Нужно написать самым эффективным способом, использую не более 50 MB JVM heap. Кто может подсказать литературу, чтобы там были подобные задачи решены?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.09.2013, 23:22
Ответы с готовыми решениями:

Задача на оптимизацию памяти
Здравствуйте, помогите пожалуйста решить следующую задчу: Дана строка S и множество строк P = {s_1, s_2, ..., s_n}. Какие...

Задача на оптимизацию
На мебельной фабрике изготавливаются пять видов продукции: столы, шкафы, диван-кровати, кресла-кровати и тахты. Нормы затрат ресурсов:...

Задача на оптимизацию
На мебельной фабрике изготавливаются пять видов продукции: столы, шкафы, диван-кровати, кресла-кровати и тахты. Нормы затрат ресурсов:...

7
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
19.09.2013, 11:56
Используй HashMap.

Добавлено через 1 минуту
Уточнение. Если в файлах строки уже упорядочены, то оптимальнее просто мёрджить, как в сортировке слиянием.

Добавлено через 49 секунд
И вообще, память программы ты называешь, а ограничения на количество данных - нет. Странным не кажется?
0
1967 / 823 / 114
Регистрация: 01.10.2012
Сообщений: 4,831
Записей в блоге: 2
19.09.2013, 12:57
Отсортировать оба масива по "коду", а затем просто идти по одному массиву и сразу писать. Т.е. взяли строку из первого, находим все с таким же кодом во втором, на плюсах это std::equal_range
0
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
19.09.2013, 13:23
Сортировка даст O(n*lb(n)), а хэш-таблица O(n)...

Добавлено через 1 минуту
Кстати, в си я бы использовал map - тоже n*lb(n), хотя сортировка вероятно была бы немного быстрее.
0
0 / 0 / 1
Регистрация: 19.11.2011
Сообщений: 26
19.09.2013, 13:45  [ТС]
Как раз моим рабочим вариантом был HashMap c выталкиваем уже встречавшихся значений. Но при рамере кучи 50 метров выдается сообщение Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
PS в каждом файле 10000000 записей.
0
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
19.09.2013, 15:48
Так это даже один файл просто в память не влезет даже в виде байтового массива.
При таком раскладе, единствененный вараинт, который приходит мне в голову, - сортировка слиением для обоих файлов. Насколько я помню, она может быть реализована непосредственно с файлами, без загрузки всех данных в память. Но на быстродействии это естествено скажется отрицательно...

Добавлено через 4 минуты
Хотя нет, есть более оптимальный вариант (возможно). Сделать некоторую хэш-функцию, отображающую индекс в int приемлимого диапазона и хранить данные о номерах записей, в которых оно встречается. И читать требуемые записи, чтобы проверить, совпадает ли id. Но тут опять проблемы с доступной памятью, надо хранить что-то другое...
0
1967 / 823 / 114
Регистрация: 01.10.2012
Сообщений: 4,831
Записей в блоге: 2
19.09.2013, 16:41
Цитата Сообщение от Qwertiy Посмотреть сообщение
Сортировка даст O(n*lb(n)), а хэш-таблица O(n)...
Там не сказано что ключ/код уникальный, а тогда hash теряет свою прелесть..
0
835 / 643 / 101
Регистрация: 20.08.2013
Сообщений: 2,524
19.09.2013, 17:27
Цитата Сообщение от Igor3D Посмотреть сообщение
Там не сказано что ключ/код уникальный
Там сказано что надо слить по ключу. Соответственно значение в таблице - не одна запись. Т. е. HashMap<Integer, List<String>>.
В любом случае, информация о числе записей в файлах означает, что это в память не влезет никакое решение, требующее держать все данные в памяти.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
19.09.2013, 17:27
Помогаю со студенческими работами здесь

Задача на оптимизацию
Помогите, пожалуйста, решить задачу! Условия задачи в картинке. Заранее спасибо!

Задача на оптимизацию параметров
Доброго времени суток, господа! Наткнулся на очень интересную задачу: Есть экспериментальные данные, кроме этого есть мат модель. ...

Задача на оптимизацию доставки продукции
Вот условия: Компания хранит готовую продукцию на трех складах (первом, втором и третьем), расположенных в разных частях города. На этих...

задача на оптимизацию, наверное на распределение
Условие задачи: На заготовительный участок поступило 69 металлических прутьев длиной 111см. Их необходимо разрезать на заготовки по 19, 23...

Билеты на метро - задача на оптимизацию
Пожалуйста, помогите решить задачку! Сразу предупреждаю, что решение с пятью циклами while не проходит по времени, так что не предлагайте...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru