|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
||||||
Как быстро обрабатывать текст из файлов больших объёмов16.07.2014, 16:16. Показов 2339. Ответов 17
Метки нет (Все метки)
Здравствуйте, искал как быстро читать текст из файлов больших объёмов, наткнулся на функцию:
0
|
||||||
| 16.07.2014, 16:16 | |
|
Ответы с готовыми решениями:
17
Как хранить и обрабатывать массив больших элементов Обработка больших объёмов данных Алгоритмы сортировки больших объёмов данных |
|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
|
| 16.07.2014, 17:22 [ТС] | |
|
780 мб
Добавлено через 52 минуты С этим я справился) Как 24 миллиона строк можно избавить от дубликатов
0
|
|
|
1 / 1 / 1
Регистрация: 14.03.2014
Сообщений: 46
|
|
| 17.07.2014, 09:12 | |
|
Брать в основу любой понравившийся метод сортировки и сравнивать строки, а найдя совпадения, удалять одну.
0
|
|
| 17.07.2014, 10:26 | |
|
0
|
|
|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
|
| 17.07.2014, 13:12 [ТС] | |
|
Единственный вариант, который я придумал: взять весь файл в память, потом построчно читать его же и уже фильтровать с теми строками, что в памяти, но мне кажется это очень долго будет
Будет ли быстрее работать с THashedStringList?
0
|
|
|
|
||
| 17.07.2014, 17:29 | ||
|
THashedStringList конечно пошустрее будет, но опять же, в какой мере - зависит от конкретных операций, что ты собираешься над ним совершать.
0
|
||
|
327 / 230 / 55
Регистрация: 30.05.2014
Сообщений: 682
|
|
| 17.07.2014, 17:57 | |
|
0
|
|
|
|
|
| 17.07.2014, 18:09 | |
|
Пройтись первый раз по файлу посчитать хеш каждой строки возможно запомнить положение строк, найти совпадения среди хешей, убедиться что это не коллизия, выбрать по результатам уникальные строки. Проблема лишь в выбори хеш ф-ции и можно ли будет "сохранить" положение срок, ибо я так и не понял какого типа файл - текстовый или бинарный.
0
|
|
|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
||||||
| 18.07.2014, 02:48 [ТС] | ||||||
|
файл текстовый
Добавлено через 5 часов 0 минут Всё получилось, использовал вектор. Файл 500мб читался и чистился от дублей 10 минут
0
|
||||||
|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
|
| 18.07.2014, 12:44 [ТС] | |
|
Да, удалял дубли строк
0
|
|
|
13 / 13 / 7
Регистрация: 28.01.2012
Сообщений: 549
|
|
| 19.07.2014, 14:08 [ТС] | |
|
0
|
|
|
|
|
| 19.07.2014, 14:45 | |
|
Ну достоинство вектора быстрая вставка в конец и дальнейший быстрый доступ при переборе с записью в файл, но тут проигрыш в сортировке.
В std::set<> сортировка не нужна и вставка сразу будет в "нужно место" с игнорированием совпадений (потенциальная экономия на этом памяти если совпадений много), но тем не менее вставка идет дольше (из-за поиска места вставки) и потеря при переборе при записи в файл ибо перебор через итераторы по set<> дольше перебора в std::vector<>
1
|
|
|
|
|
| 19.07.2014, 18:20 | |
|
Да просто проверь и set, и list - что быстрее или экономичней окажется, то и используй.
1
|
|
| 19.07.2014, 18:20 | |
|
Помогаю со студенческими работами здесь
18
Выбор БД для больших объёмов данных Обновление больших объёмов данных(150к полей) Какой массив использовать для хранения больших объёмов информации? Как в excel 2007 обрабатывать ячейки, содержащие текст, заключенный в кавычки?
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Автоматическое создание документа при проведении другого документа
Maks 29.03.2026
Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2.
Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники".
В. . .
|
Настройка движения справочника по регистру сведений
Maks 29.03.2026
Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии.
. . .
|
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2.
При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
|
Сумматор с применением элементов трёх состояний.
Hrethgir 26.03.2026
Тут.
https:/ / fips. ru/ EGD/ ab3c85c8-836d-4866-871b-c2f0c5d77fbc
Первый документ красиво выглядит, но без схемы.
Это конечно не даёт никаких плюсов автору, но тем не менее. . . всё может быть. . .
|
|
Автозаполнение реквизитов при создании документа
Maks 26.03.2026
Программный код из решения ниже размещается в модуле объекта документа, в процедуре "ПриСозданииНаСервере".
Алгоритм проверки заполнения реализован для исключения перезаписи значения реквизита,. . .
|
Команды формы и диалоговое окно
Maks 26.03.2026
1. Команда формы "ЗаполнитьЗапчасти".
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2.
В качестве источника данных. . .
|
Кому нужен AOT?
DevAlt 26.03.2026
Решил сделать простой ланчер
Написал заготовку:
dotnet new console --aot -o UrlHandler
var items = args. Split(":");
var tag = items;
var id = items;
var executable = args;. . .
|
Отправка уведомления на почту при создании или изменении элементов справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере типового справочника "Склады" в конфигурации БП3.
Перед реализацией необходимо выполнить настройку системной учетной записи электронной. . .
|