|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
Разбивка txt файла на части построчно07.02.2025, 19:30. Показов 4378. Ответов 53
Помогите записать код. Нужно разбить большой txt файл, размером около 600 гб, в котором записан текст посрочно, на файла размером по 10 Гб.
0
|
|
| 07.02.2025, 19:30 | |
|
Ответы с готовыми решениями:
53
Запись в файл построчно Разбить файл на n частей записать в n файлов |
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 08.02.2025, 22:43 [ТС] | |
|
0
|
|
|
Администратор
|
|
| 08.02.2025, 22:46 | |
|
Orlov1, txt это расширение. Я спрашиваю про формат. То есть про внутреннюю структуру файла.
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 08.02.2025, 23:04 [ТС] | |
|
OwenGlendower, каждая строка содержит
login:name:surname Не исключаю ошибки: пропуски строк, длинные строки, нарушение формата строки и тд
0
|
|
|
Администратор
|
||
| 08.02.2025, 23:09 | ||
|
0
|
||
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 00:15 [ТС] | |
|
OwenGlendower, да, я понимаю, что нужно сначала найти ошибки, исключить их, а потом делить. Подойдет и построчная обработка. Я хотел сначала разделить на части, а потом разбираться с ошибками по частям.
Добавлено через 50 минут OwenGlendower, попробовал открыть файл в EmEditor и программа выдала сообщение, что в файле содержаться очень длинные строки. Похоже вы были правы. Как обойти наличие длинных строк ?
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 00:38 [ТС] | |
|
Rius, может просто игнорировать строки с большой длинной ? Писать в результирующий файл строки длинной до 200 символов например.
0
|
|
|
|
||||||
| 09.02.2025, 03:18 | ||||||
|
Orlov1,
Нет, нужно именно что найти эту длинную строку и понять что там происходит. Пройтись и вычитать её -- 5 минут дела для человека который знает любой язык программирования. На шарпе будет что-то в духе
- другой тип переносов, например web - другая кодировка - просто мусор и нужно игнорировать. Разделение на файлы вам не шибко поможет, т.к. листать 10ГБ текста -- не проще. А разбивать на 6000 тыс. файлов -- бессмысленно. Нужно именно отдельными запросами понять что не так, как это править, а потом (в идеале) написать финальную программу которая перегонит из оригинального файла в новый с исправлениями. Возможно не за одну итерацию. Конечный результат всё же лучше собрать в какую-нибудь БД.
0
|
||||||
|
|
||
| 09.02.2025, 08:36 | ||
|
Прикольно, что этот файл, который никакая не база данных, он генерит сам : Считывание файлов по каталогам и запись в текстовый файл
Надо читать поблочно и вылавливать строки вручную. А лучше алгоритм формирования переделать, да писать сразу в БД.
0
|
||
|
Администратор
|
||
| 09.02.2025, 11:06 | ||
|
0
|
||
| 09.02.2025, 11:56 | |
|
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 11:57 [ТС] | |
|
OwenGlendower, это не так. Тот код вообще никакого отношения к этому файлу не имеет.
0
|
|
|
|
|||||||
| 09.02.2025, 12:03 | |||||||
|
Orlov1, Сформируйте кусок вашего файла таким образом и закиньте сюда, хоть глянем что там твориться (если конечно там не секретная инфа).
0
|
|||||||
|
Администратор
|
||
| 09.02.2025, 12:14 | ||
login:name:surname склеенных в одну длинную строку? Если мусор, то нужно будет сделать код который выкинет мусор из файла, если это полезные данные, то их нужно сохранить и разбить на отдельные строки.
0
|
||
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|||
| 09.02.2025, 13:23 [ТС] | |||
|
Wolfdp, Wolfdp,
Добавлено через 1 минуту OwenGlendower,
0
|
|||
|
Любознательный
7406 / 2260 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
|
|||||||
| 09.02.2025, 13:29 | |||||||
0
|
|||||||
|
|
|
| 09.02.2025, 14:12 | |
|
Orlov1,
пароли в открытом виде входят в категорию "секретная инфа", старайтесь не кидать их на публичных форумах. Насколько вижу переносы обычные "\r\n", 100% должно проходить. А значит у вас где-то проблема в середине файла. Строка может быть максимум 2ГБ, а учитывая что у вас текста на 600ГБ -- разброс сильно большой, чтобы ткнуть наугад. Я думаю вам лучше почитать возможности StreamReader, ссылки кидал выше YuS_2. Далее вы уже поймете как вычитать блоками, найти проблемное место и разобраться что с ним делать. По сути найти такое место несложно: - считываем блок - смотрим есть ли в нем \n - если "да" -- скидываем счетчик - если нет -- плюсуем в счетчик - как только счетчик перевалил за 2ккк -- выводим на каком Position это произошло - далее пишем по новой чтобы дочитало до Position - 2ккк и выводим допустим 1к символов куда нибудь - смотрим что там происходит и думаем что с этим делать.
0
|
|
|
100 / 42 / 7
Регистрация: 03.02.2019
Сообщений: 657
|
|
| 09.02.2025, 14:24 [ТС] | |
|
YuS_2, Начиная с output5.txt файлы в notepad ++ не открываются. В диспетчере вижу, что notepad ++ грузить ОЗУ до 97% далее notepad ++ "Приложение не отвечает".
Разбивка еще не завершена.
0
|
|
| 09.02.2025, 14:24 | |
|
Помогаю со студенческими работами здесь
40
Запись в текстовый файл построчно.
Построчная обработка файла или RichTextBox
Разбивка битмапа на пиксели, сохранение в текстовый файл. Проблемы с обратной операцией Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Модель здравосохранения 17. Планы на выгорание
anaschu 23.05.2026
Вот конкретная схема реализации:
В классе Работник добавить:
накопленнаяУсталость — растёт каждый час работы, снижается в перерывы и болезни
коэффициентПрезентеизма — снижает продуктивность. . .
|
Изменение цветов в палитре gif файла aka фавикона
russiannick 23.05.2026
Изменение цветов в палитре gif файла, юзаемого как фавиконка в составе html-файла, помещенная в base64, средствами нативного Java Script, навеянное сном в майский день.
Для работы необходим браузер,. . .
|
Модель здравосохранения 16. Слишком хорошие и здоровые сотрудники уходят, недовольные зарплатой
anaschu 23.05.2026
Отладка увольнений и настройка производительности
Сегодня во второй половине дня разобрались с механикой увольнений и настроили коэффициент сложности заданий. Вот что было сделано.
. . .
|
Как я стал коммунистом))) Модель сохранения здоровья сотрудников, запись блога номер 15
anaschu 23.05.2026
Внезапно хорошее здоровье сотрудников не нужно капиталистам?))
|
|
Модель здравоСохранения 15. Как мы чинили AnyLogic модель рабочего коллектива: сочленение диаграммы состояний болезней и поломок в ресурспул
anaschu 23.05.2026
Как мы чинили AnyLogic модель рабочего коллектива
Сегодня разобрались с пятью багами, из-за которых модель либо падала с ошибкой, либо давала совершенно бессмысленные результаты. Каждый баг был. . .
|
Диалоги с ИИ
zorxor 23.05.2026
Насколько я понимаю - Вы - Искусственный Интеллект. Это так?
Да, всё верно. Я — искусственный интеллект.
Я представляю собой большую языковую модель, созданную для помощи в самых разных задачах. . . .
|
Модель здравосохранения 14. Собираем всю модель вместе.
anaschu 22.05.2026
Модель собрана. В будущих постах на видео я покажу, как она работает.
В этом посте запускаем её, проверяем результаты и разбираем что можно с ней делать дальше.
Перед запуском проверяем. . .
|
Модель здравоохранения 13. Добавление самой системы здравоохранения.
anaschu 22.05.2026
В предыдущем посте мы настроили болезни. Теперь добавим события, которые управляют здоровьем всего коллектива, а также настроим рабочий график и расчёт финансов.
В Main создаём четыре события. . . .
|