С Новым годом! Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.83/18: Рейтинг темы: голосов - 18, средняя оценка - 4.83
0 / 0 / 0
Регистрация: 12.01.2021
Сообщений: 3

Разделение большого xml файла на несколько файлов меньшего объема (строк)

12.01.2021, 22:39. Показов 3430. Ответов 8

Студворк — интернет-сервис помощи студентам
Задача состоит в том что есть 1 большой xml файл (содержащий 150000 строк) нужно разделить на файлы меньшего объёма (например по 1000 строк) и в дальнейшем все их сохранить отдельными документами (например file1,file2.. и т.д.), то есть каждый последующий файл должен в себе содержать 1000 строк из основанного и так пока не закончатся все строки, следовательно последний же документ должен содержать в себе остатки (допустим 875 строк). И все это нужно сделать в C#
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
12.01.2021, 22:39
Ответы с готовыми решениями:

Парсер xml файлов большого объёма
Всем привет! Хочу написать парсер для xml файла размером 15гб на PHP Возможно ли это? У меня не получается считывать файл по частям для...

Разделение содержимого текстового файла на несколько файлов
Коллеги, всех приветствую, Нужна ваша экспертная помощь Проблема такая, есть файл, имя.TXT в нем построчно идет текст: 123=232 ...

Несколько ISO большого объема
Всем здравствуйте. Не могу понять, как сделать следующее: Требуется сделать три iso образа, с папки в 24 гб. Каждый iso должен быть по...

8
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18250 / 14174 / 5366
Регистрация: 17.03.2014
Сообщений: 28,851
Записей в блоге: 1
12.01.2021, 23:37
GrandLo, структура XML документа известна? Если да, ты выложите часть и напишите где хотите проводить границу для разделения.
0
0 / 0 / 0
Регистрация: 12.01.2021
Сообщений: 3
13.01.2021, 04:56  [ТС]
OwenGlendower,

<?xml version='1.0' encoding='windows-1251'?>
<SM_LIST>
<SM ID_Q='12345' FD= 'ЙЦУКЕ' IR= 'ЙФЫВЦУКЕН' OV= 'ВАПЧС' BN= '2020-12-12' SQ= '1' DATA_H= '2020-11-13' BGRT= '6' XSWR= '345345345678' CSA= '14356' FAW_FSAQER= '3245235231423' FAE_FDAQW= '3452234' />
<SM ID_Q='14345' FD= 'ЙСФКЕ' IR= 'ЫВЦКЕН' OV= 'ЫВАС' BN= '2019-13-12' SQ= '2' DATA_H= '2020-10-13' BGRT= '4' XSWR= '43576598567' CSA= '12346' FAW_FSAQER= '3245233231423' FAE_FDAQW= '3454334' />
<SM ID_Q='12645' FD= 'КЙЦУКЕ' IR= 'ФЦУКЕН' OV= 'СМИЯЯЧС' BN= '2011-13-11' SQ= '1' DATA_H= '2020-12-09' BGRT= '3' XSWR= '567890123345' CSA= '12326' FAW_FSAQER= '3215234231423' FAE_FDAQW= '6454234' />
<SM ID_Q='12745' FD= 'МЫЦУКЕ' IR= 'ФЫВКЕН' OV= 'ЫВАС' BN= '2011-10-12' SQ= '1' DATA_H= '2020-12-08' BGRT= '4' XSWR= '123456234234' CSA= '16356' FAW_FSAQER= '3245274231423' FAE_FDAQW= '3454634' />
<SM ID_Q='12645' FD= 'ЙЦЫФВЙЦКЕ' IR= 'ЙЦУЕН' OV= 'ЫВАПУЦКЕ' BN= '2012-09-11' SQ= '1' DATA_H= '2020-10-12' BGRT= '3' XSWR= '123456345567' CSA= '12256' FAW_FSAQER= '3235234231423' FAE_FDAQW= '9454234' />

Граница в принципе видна
0
Эксперт .NET
 Аватар для Usaga
14111 / 9328 / 1349
Регистрация: 21.01.2016
Сообщений: 35,038
13.01.2021, 06:46
GrandLo, ну, если заранее известно, что размер файла 150К строк и больше (в сторону уже миллионов) не может быть, то можно воспользоваться обычной десериализацией. Т.е. завести класс описывающий структуру документа и десериализовать этот документ в коллекцию таких классов. А потом уже в цикле сериализовывать назад, но уже порциями по 1000 штук.

Если файл может быть неизвестно каким огромным, то уже можно задействовать более сложный вариант, но более эффективный: SAX в лице класса XmlReader.
0
 Аватар для samana
2639 / 1567 / 853
Регистрация: 23.02.2019
Сообщений: 3,876
13.01.2021, 08:29
Если весь xml состоит только из одинаковых тегов (в данном случае <SM/>), то может просто читать файл построчно как обычный txt и копировать нужное кол-во строк в отдельные файлы?
0
Эксперт .NET
 Аватар для Usaga
14111 / 9328 / 1349
Регистрация: 21.01.2016
Сообщений: 35,038
13.01.2021, 08:46
samana, XML не гарантирует расположение тегов на разных строках. Валидный XML может быть и в одну строку.
0
 Аватар для samana
2639 / 1567 / 853
Регистрация: 23.02.2019
Сообщений: 3,876
13.01.2021, 08:54
Usaga, Я об этом не подумал.. Спасибо. Идея не сработала.
0
0 / 0 / 0
Регистрация: 12.01.2021
Сообщений: 3
13.01.2021, 08:57  [ТС]
Usaga, Можешь поподробнее рассказать о SAX в лице класса XmlReader, а то я что-то не совсем понял.
Или пример может какой-нибудь есть?
0
Эксперт .NET
 Аватар для Usaga
14111 / 9328 / 1349
Регистрация: 21.01.2016
Сообщений: 35,038
13.01.2021, 08:59
GrandLo, можете погуглить примеры работы с этим классом. Название-то я озвучил)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
13.01.2021, 08:59
Помогаю со студенческими работами здесь

Вставить узел большого объема из одного xml-документа в другой
Добрый день! Вопрос в следующем: необходимо вытащить определенный узел из одного хмл-документа и вставить в другой уже сформированный...

Обработка большого объема текстовых файлов
Необходимо определить по координатам в файлах(около 10000) к какому из этих файлов принадлежат проверяемые координаты, фигуры в файлах не...

Ошибка в записи большого объема строк в txt
Привет камрады! Работаю с большими файликами, csvшки более гига размером. Нужно было выдрать оттуда нужный столбец и выписать в файл. ...

Облако. И скачка из него файлов большого объема + progressbar
Здравствуйте. Посоветуйте облако и пример для скачивания с него файлов. Версия Delphi: Последняя. Файлы большого объема так что нужно...

Разделение pdf-файла на несколько pdf-файлов
Здравствуйте, подскажите как разделить файл pdf - состоящий из n-страниц, на несколько файлов pdf через itextsharp.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru