Как быстро обрабатывать текст из файлов больших объёмов

@hiphone · Регистрация: 28.01.2012

Студворк — интернет-сервис помощи студентам

Здравствуйте, искал как быстро читать текст из файлов больших объёмов, наткнулся на функцию:

C++
1
long fd = open(sFilePath.c_str(), O_RDONLY | O_BINARY);

описывается, что она находится в: #include <fcntl.h>, файл заинклюдил, но билдер функцию не находит

@volvo · 16.07.2014, 16:27

C++
1
#include <io.h>

вообще-то еще нужен.

Насколько большой объем файла?

@hiphone · 16.07.2014, 17:22 **[ТС]**

780 мб

Добавлено через 52 минуты
С этим я справился) Как 24 миллиона строк можно избавить от дубликатов

@Zerorc · 17.07.2014, 09:12

Брать в основу любой понравившийся метод сортировки и сравнивать строки, а найдя совпадения, удалять одну.

@SatanaXIII · 17.07.2014, 10:26

Не по теме:

Сообщение от hiphone

Как 24 миллиона строк можно избавить от дубликатов

Завуалированная форма "Как два байта переслать"?

@hiphone · 17.07.2014, 13:12 **[ТС]**

Единственный вариант, который я придумал: взять весь файл в память, потом построчно читать его же и уже фильтровать с теми строками, что в памяти, но мне кажется это очень долго будет

Будет ли быстрее работать с THashedStringList?

@BRcr · 17.07.2014, 17:29

Сообщение от hiphone

но мне кажется это очень долго будет

А проверить что мешает? Там уже и думать дальше будешь.

THashedStringList конечно пошустрее будет, но опять же, в какой мере - зависит от конкретных операций, что ты собираешься над ним совершать.

@Avazart · 17.07.2014, 17:53

Сообщение от BRcr

THashedStringList

навряд ли в нем поместится.

@uglyPinokkio · 17.07.2014, 17:57

Сообщение от hiphone

Как 24 миллиона строк можно избавить от дубликатов

складывать в std::map в качестве ключа, если память не лопнет.

@Avazart · 17.07.2014, 18:09

Не по теме:

Сообщение от uglyPinokkio

складывать в std::map в качестве ключа, если память не лопнет.

Думаю лопнет ...

Пройтись первый раз по файлу посчитать хеш каждой строки возможно запомнить положение строк, найти совпадения среди хешей, убедиться что это не коллизия, выбрать по результатам уникальные строки.

Проблема лишь в выбори хеш ф-ции и можно ли будет "сохранить" положение срок, ибо я так и не понял какого типа файл - текстовый или бинарный.

@hiphone · 18.07.2014, 02:48 **[ТС]**

файл текстовый

Добавлено через 5 часов 0 минут
Всё получилось, использовал вектор. Файл 500мб читался и чистился от дублей 10 минут

C++
1
#include <vector>

@BRcr · 18.07.2014, 07:39

А что ты делал с вектором? Удалял из него элементы-дубли?

@hiphone · 18.07.2014, 12:44 **[ТС]**

Да, удалял дубли строк

@BRcr · 19.07.2014, 09:13

Тогда лучше возьми std::list - должно куда быстрее отработать...

@Avazart · 19.07.2014, 11:49

Сообщение от BRcr

Тогда лучше возьми std::list - должно куда быстрее отработать...

А может std::set<> тогда уже, только есть сомнения что не будет быстрее, а вот память с экономит, если много повторений встречается.

@hiphone · 19.07.2014, 14:08 **[ТС]**

Сообщение от Avazart

А может std::set<> тогда уже, только есть сомнения что не будет быстрее, а вот память с экономит, если много повторений встречается.

не будет быстрее чем list или vector?

@Avazart · 19.07.2014, 14:45

Ну достоинство вектора быстрая вставка в конец и дальнейший быстрый доступ при переборе с записью в файл, но тут проигрыш в сортировке.

В std::set<> сортировка не нужна и вставка сразу будет в "нужно место" с игнорированием совпадений (потенциальная экономия на этом памяти если совпадений много), но тем не менее вставка идет дольше (из-за поиска места вставки) и потеря при переборе при записи в файл ибо перебор через итераторы по set<> дольше перебора в std::vector<>

@BRcr · 19.07.2014, 18:20

Да просто проверь и set, и list - что быстрее или экономичней окажется, то и используй.

Новые блоги и статьи Все статьи Все блоги /
Автоматическое создание документа при проведении другого документа Maks 29.03.2026 Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2. Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники". В. . .	Настройка движения справочника по регистру сведений Maks 29.03.2026 Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии. . . .	Автозаполнение реквизита при выборе элемента справочника Maks 27.03.2026 Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .	Сумматор с применением элементов трёх состояний. Hrethgir 26.03.2026 Тут. https:/ / fips. ru/ EGD/ ab3c85c8-836d-4866-871b-c2f0c5d77fbc Первый документ красиво выглядит, но без схемы. Это конечно не даёт никаких плюсов автору, но тем не менее. . . всё может быть. . .
Автозаполнение реквизитов при создании документа Maks 26.03.2026 Программный код из решения ниже размещается в модуле объекта документа, в процедуре "ПриСозданииНаСервере". Алгоритм проверки заполнения реализован для исключения перезаписи значения реквизита,. . .	Команды формы и диалоговое окно Maks 26.03.2026 1. Команда формы "ЗаполнитьЗапчасти". Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. В качестве источника данных. . .	Кому нужен AOT? DevAlt 26.03.2026 Решил сделать простой ланчер Написал заготовку: dotnet new console --aot -o UrlHandler var items = args. Split(":"); var tag = items; var id = items; var executable = args;. . .	Отправка уведомления на почту при создании или изменении элементов справочника Maks 24.03.2026 Программная отправка письма электронной почты на примере типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной записи электронной. . .

@hiphone 13 / 13 / 7 Регистрация: 28.01.2012 Сообщений: 549
	16.07.2014, 17:22 [ТС]
	780 мб Добавлено через 52 минуты С этим я справился) Как 24 миллиона строк можно избавить от дубликатов 0

@Zerorc 1 / 1 / 1 Регистрация: 14.03.2014 Сообщений: 46
	17.07.2014, 09:12
	Брать в основу любой понравившийся метод сортировки и сравнивать строки, а найдя совпадения, удалять одну. 0

@hiphone 13 / 13 / 7 Регистрация: 28.01.2012 Сообщений: 549
	17.07.2014, 13:12 [ТС]
	Единственный вариант, который я придумал: взять весь файл в память, потом построчно читать его же и уже фильтровать с теми строками, что в памяти, но мне кажется это очень долго будет Будет ли быстрее работать с THashedStringList? 0

@BRcr 4043 / 2333 / 292 Регистрация: 03.02.2011 Сообщений: 5,066 Записей в блоге: 10
	18.07.2014, 07:39
	А что ты делал с вектором? Удалял из него элементы-дубли? 0

@hiphone 13 / 13 / 7 Регистрация: 28.01.2012 Сообщений: 549
	18.07.2014, 12:44 [ТС]
	Да, удалял дубли строк 0

@BRcr 4043 / 2333 / 292 Регистрация: 03.02.2011 Сообщений: 5,066 Записей в блоге: 10
	19.07.2014, 09:13
	Тогда лучше возьми std::list - должно куда быстрее отработать... 1

@Avazart 8488 / 6155 / 615 Регистрация: 10.12.2010 Сообщений: 28,683 Записей в блоге: 30
	19.07.2014, 14:45
	Ну достоинство вектора быстрая вставка в конец и дальнейший быстрый доступ при переборе с записью в файл, но тут проигрыш в сортировке. В std::set<> сортировка не нужна и вставка сразу будет в "нужно место" с игнорированием совпадений (потенциальная экономия на этом памяти если совпадений много), но тем не менее вставка идет дольше (из-за поиска места вставки) и потеря при переборе при записи в файл ибо перебор через итераторы по set<> дольше перебора в std::vector<> 1

@BRcr 4043 / 2333 / 292 Регистрация: 03.02.2011 Сообщений: 5,066 Записей в блоге: 10
	19.07.2014, 18:20
	Да просто проверь и set, и list - что быстрее или экономичней окажется, то и используй. 1