|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
Разбивка txt файла на части построчно07.02.2025, 19:30. Показов 4320. Ответов 53
Помогите записать код. Нужно разбить большой txt файл, размером около 600 гб, в котором записан текст посрочно, на файла размером по 10 Гб.
0
|
|
| 07.02.2025, 19:30 | |
|
Ответы с готовыми решениями:
53
Запись в файл построчно Разбить файл на n частей записать в n файлов |
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 08.02.2025, 22:43 [ТС] | |
|
0
|
|
|
Администратор
|
|
| 08.02.2025, 22:46 | |
|
Orlov1, txt это расширение. Я спрашиваю про формат. То есть про внутреннюю структуру файла.
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 08.02.2025, 23:04 [ТС] | |
|
OwenGlendower, каждая строка содержит
login:name:surname Не исключаю ошибки: пропуски строк, длинные строки, нарушение формата строки и тд
0
|
|
|
Администратор
|
||
| 08.02.2025, 23:09 | ||
|
0
|
||
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 00:15 [ТС] | |
|
OwenGlendower, да, я понимаю, что нужно сначала найти ошибки, исключить их, а потом делить. Подойдет и построчная обработка. Я хотел сначала разделить на части, а потом разбираться с ошибками по частям.
Добавлено через 50 минут OwenGlendower, попробовал открыть файл в EmEditor и программа выдала сообщение, что в файле содержаться очень длинные строки. Похоже вы были правы. Как обойти наличие длинных строк ?
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 00:38 [ТС] | |
|
Rius, может просто игнорировать строки с большой длинной ? Писать в результирующий файл строки длинной до 200 символов например.
0
|
|
|
|
||||||
| 09.02.2025, 03:18 | ||||||
|
Orlov1,
Нет, нужно именно что найти эту длинную строку и понять что там происходит. Пройтись и вычитать её -- 5 минут дела для человека который знает любой язык программирования. На шарпе будет что-то в духе
- другой тип переносов, например web - другая кодировка - просто мусор и нужно игнорировать. Разделение на файлы вам не шибко поможет, т.к. листать 10ГБ текста -- не проще. А разбивать на 6000 тыс. файлов -- бессмысленно. Нужно именно отдельными запросами понять что не так, как это править, а потом (в идеале) написать финальную программу которая перегонит из оригинального файла в новый с исправлениями. Возможно не за одну итерацию. Конечный результат всё же лучше собрать в какую-нибудь БД.
0
|
||||||
|
|
||
| 09.02.2025, 08:36 | ||
|
Прикольно, что этот файл, который никакая не база данных, он генерит сам : Считывание файлов по каталогам и запись в текстовый файл
Надо читать поблочно и вылавливать строки вручную. А лучше алгоритм формирования переделать, да писать сразу в БД.
0
|
||
|
Администратор
|
||
| 09.02.2025, 11:06 | ||
|
0
|
||
| 09.02.2025, 11:56 | |
|
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 11:57 [ТС] | |
|
OwenGlendower, это не так. Тот код вообще никакого отношения к этому файлу не имеет.
0
|
|
|
|
|||||||
| 09.02.2025, 12:03 | |||||||
|
Orlov1, Сформируйте кусок вашего файла таким образом и закиньте сюда, хоть глянем что там твориться (если конечно там не секретная инфа).
0
|
|||||||
|
Администратор
|
||
| 09.02.2025, 12:14 | ||
login:name:surname склеенных в одну длинную строку? Если мусор, то нужно будет сделать код который выкинет мусор из файла, если это полезные данные, то их нужно сохранить и разбить на отдельные строки.
0
|
||
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|||
| 09.02.2025, 13:23 [ТС] | |||
|
Wolfdp, Wolfdp,
Добавлено через 1 минуту OwenGlendower,
0
|
|||
|
Любознательный
7406 / 2260 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
|
|||||||
| 09.02.2025, 13:29 | |||||||
0
|
|||||||
|
|
|
| 09.02.2025, 14:12 | |
|
Orlov1,
пароли в открытом виде входят в категорию "секретная инфа", старайтесь не кидать их на публичных форумах. Насколько вижу переносы обычные "\r\n", 100% должно проходить. А значит у вас где-то проблема в середине файла. Строка может быть максимум 2ГБ, а учитывая что у вас текста на 600ГБ -- разброс сильно большой, чтобы ткнуть наугад. Я думаю вам лучше почитать возможности StreamReader, ссылки кидал выше YuS_2. Далее вы уже поймете как вычитать блоками, найти проблемное место и разобраться что с ним делать. По сути найти такое место несложно: - считываем блок - смотрим есть ли в нем \n - если "да" -- скидываем счетчик - если нет -- плюсуем в счетчик - как только счетчик перевалил за 2ккк -- выводим на каком Position это произошло - далее пишем по новой чтобы дочитало до Position - 2ккк и выводим допустим 1к символов куда нибудь - смотрим что там происходит и думаем что с этим делать.
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 14:24 [ТС] | |
|
YuS_2, Начиная с output5.txt файлы в notepad ++ не открываются. В диспетчере вижу, что notepad ++ грузить ОЗУ до 97% далее notepad ++ "Приложение не отвечает".
Разбивка еще не завершена.
0
|
|
| 09.02.2025, 14:24 | |
|
Помогаю со студенческими работами здесь
40
Запись в текстовый файл построчно.
Построчная обработка файла или RichTextBox
Разбивка битмапа на пиксели, сохранение в текстовый файл. Проблемы с обратной операцией Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
попытка написать игровой сервер на C++
pyirrlicht 29.04.2026
попытка написать игровой сервер на плюсах с открытым бесконечным миром.
возможно получится прикрутить интерпретатор питон для кастомизации игровой логики.
что есть на текущий момент:. . .
|
Контроль уникальности выбранного документа-основания при изменении реквизита
Maks 28.04.2026
Алгоритм из решения ниже разработан на примере нетипового документа "ЗаявкаНаРемонтСпецтехники", разработанного в КА2.
Задача: уведомлять пользователя, если указанная заявка (документ-основание). . .
|
Благородство как наказание
Maks 24.04.2026
У хорошего человека отношения с женщинами всегда складываются трудно. А я человек хороший. Заявляю без тени смущения, потому что гордиться тут нечем. От хорошего человека ждут соответствующего. . .
|
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2.
Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
|
|
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2.
Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом.
В. . .
|
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2.
Задача: отобразить спецтехнику, которая на данный момент находится в ремонте.
Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
|
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
|
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
|