Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89

Поиск в xml-файлах

21.07.2019, 21:29. Показов 1420. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!

Имеется крупный xml файл (350 мб), который представляет собой словарь помеченных слов. Необходимо обеспечить быстрый доступ к информации к словам.

Что я сделал:

Использовал библиотеку element tree и ее метод iterparse(). Осуществляю поиск путем итерации. Скорость низкая.

Как улучшить скорость ?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
21.07.2019, 21:29
Ответы с готовыми решениями:

Поиск строк в файлах по признаку
IDLE (Python 3.10 64-bit) В каталоге много текстовых файлов. Нужно пройти эти все файлы построчно. Найти в этих файлах, если есть,...

Поиск из списка текста в файлах
Скрипт должен отработать следующее: Из файла -- ххх.txt брать построчно слово. Запускать поиск этого слова во всех текстовых m3u ...

Поиск слова в файлах
всем привет, есть список в котором собраны пути к файлам, их более 300 + filepaths = , выглядит он так: нужно открыть каждый файл на...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.07.2019, 21:45
Цитата Сообщение от constantin_01 Посмотреть сообщение
Имеется крупный xml файл (350 мб)
Ужас. Ну кто сейчас хранит такой объем не в БД?
По сабжу - вам помогут только event-based\SAX парсеры.
Они не строят DOM, а парсят в realtime по мере чтения файла.

Code
1
2
3
xml.sax
xml.parsers.expat
lxml.etree iterparse (потребуется дополнтельно освобождать память)
0
1 / 1 / 0
Регистрация: 30.04.2019
Сообщений: 89
21.07.2019, 21:55  [ТС]
Garry Galler, речь идет о корпусе русского языка: http://opencorpora.org/dict.php

доступна только версия с xml и json, видимо предполагается, что пользователь должен уметь эффектно управляться с xml и json

Добавлено через 7 минут
Меня интересует как можно сжать xml словарь, то есть представить его в иной структуре. Например, в библиотеке pymorphy2 этот словарь умещается в 7 мб.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.07.2019, 22:11
Цитата Сообщение от constantin_01 Посмотреть сообщение
Меня интересует как можно сжать xml словарь,
Цитата Сообщение от constantin_01 Посмотреть сообщение
в библиотеке pymorphy2 этот словарь умещается в 7 мб.
15Мб.
DAWG. На сайте pymorphy есть ссылки и описание.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
21.07.2019, 22:11
Помогаю со студенческими работами здесь

Поиск имен в файлах
Приветствую обитателей форума. На данный момент решаю небольшую задачу. Есть txt файл в котором содержаться имена файлов. Пытаюсь...

Поиск и замена данных в файлах
Доброго времени суток, друзья! Есть 2 файла, содержимое первого: IDS_PROPITEM_TXT_000124 IDS_PROPITEM_TXT_000236 ...

Поиск в файлах по определенным словам
Здравствуйте! питон не так давно изучаю поэтому имею некоторые сложности с написанием программы.имеются два больших текстовых...

Поиск текста в файлах .xml
Подскажите как реализовать в данной форме поиск определенного текста в файлах .xml 1) Указываем каталог где находится файл .xml 2)...

Поиск по тегам в .xml файлах
Привет. Ребята помогите плиз из xml файла вытащить инфо по тегам. В Модуле1 макрос getvaluefromxml хотелось бы что бы он работал...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
Сумматор с применением элементов трёх состояний.
Hrethgir 26.03.2026
Тут. https:/ / fips. ru/ EGD/ ab3c85c8-836d-4866-871b-c2f0c5d77fbc Первый документ красиво выглядит, но без схемы. Это конечно не даёт никаких плюсов автору, но тем не менее. . . всё может быть. . .
Автозаполнение реквизитов при создании документа
Maks 26.03.2026
Программный код из решения ниже размещается в модуле объекта документа, в процедуре "ПриСозданииНаСервере". Алгоритм проверки заполнения реализован для исключения перезаписи значения реквизита,. . .
Команды формы и диалоговое окно
Maks 26.03.2026
1. Команда формы "ЗаполнитьЗапчасти". Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. В качестве источника данных. . .
Кому нужен AOT?
DevAlt 26.03.2026
Решил сделать простой ланчер Написал заготовку: dotnet new console --aot -o UrlHandler var items = args. Split(":"); var tag = items; var id = items; var executable = args;. . .
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru