|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
|
Потоковое чтение страницы01.09.2015, 03:05. Показов 2019. Ответов 16
Метки нет (Все метки)
Есть некая страница https://example.com/1234. По ней катится однопроходный парсер. Так как он однопроходный, нет никакого смысла хранить уже обработанный текст. Поэтому, хотелось бы загружать страницу в режиме "скачал кусок, распарсил, выкинул". То есть, читать страницу как однопроходный поток, без предварительной загрузки всей страницы в память. Возможно ли это?
У curl нечто похожее видел - получив очередную порцию файла, он вызывает callback функцию для ее обработки. Но это не совсем то. callback не шибко удобно прикручивать к парсеру. Через сокеты файл в принципе так и читается, но там ведь еще файл от служебной информации отделять надо. А если нужна поддержка httpS, геморрой выходит еще больший. Может есть какая-то готовая библиотека для этого?
0
|
|
| 01.09.2015, 03:05 | |
|
Ответы с готовыми решениями:
16
Потоковое чтение из файла Потоковое чтение данных с контроллера Потоковое Чтение и запись в файл |
|
150 / 137 / 35
Регистрация: 29.07.2012
Сообщений: 709
|
|
| 01.09.2015, 21:28 | |
|
Ну так если парсер однопроходный, в чем проблема скачать всю страницу и пробежаться парсером.
Опишите проблему, возможно есть другие пути решения.
0
|
|
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
|||||||
| 01.09.2015, 22:01 [ТС] | |||||||
0
|
|||||||
|
150 / 137 / 35
Регистрация: 29.07.2012
Сообщений: 709
|
|
| 01.09.2015, 22:06 | |
|
Просто многие библиотеки делают врапперы над всем сырым, и уже юзеры либы получают полные ответы веб сервера. Я думаю вам нужно погуглить про WinSock, и просто методом recv читать порциями данные, одним из параметров выступает буфер и его размер, вот ваша задача уменьшить до нужных порций и частями работать с текстом.
Но тут уже придется изучать структуру HTTP запросов, для их правильного составления, но я думаю не составит труда запустить сниффер и просмотреть его структуру.
0
|
|
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
||
| 01.09.2015, 22:49 [ТС] | ||
|
1) В HTTP 1.0 вы вызывали recv до "пока сокет не закроется". В HTTP 1.1 он никогда не закроется (keep-alive режим). Поэтому, вы должны заранее распарсить заголовок Content-Length и прочитать из него размер страницы. 2) Вместо Content-Length может использоваться Chunked transfer encoding. Это веселый квест "раздели винегрет из принимаемого файла и служебной информации". 3) А еще поток данных может быть зашифрован (HTTPS). Короче, если идти по пути прямой работы с сокетами, получится целая вспомогательная библиотека. А мне готовую хотелось.
0
|
||
|
Ушел с форума
|
|
| 02.09.2015, 00:09 | |
|
Renji, это подойдет ?
joyent/http-parser https://github.com/joyent/http-parser Я эту библиотечку всегда использую, когда надо парсить HTTP.
1
|
|
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
|||||||
| 02.09.2015, 01:03 [ТС] | |||||||
0
|
|||||||
|
Ушел с форума
|
||
| 02.09.2015, 09:19 | ||
|
Если найдешь библиотеку поинтереснее, напиши, ок ?
0
|
||
|
46 / 35 / 24
Регистрация: 16.03.2015
Сообщений: 179
|
||
| 02.09.2015, 14:00 | ||
|
Хотя, понятно, что Лирика... Вы слишком Ушлый, на самом деле - это понты.
0
|
||
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
||
| 02.09.2015, 14:16 [ТС] | ||
|
PS Да, я в курсе что такие парсеры готовые есть. Способ формирования JSON по историческим причинам кривоват, надо было под него подстроиться.
0
|
||
|
46 / 35 / 24
Регистрация: 16.03.2015
Сообщений: 179
|
|
| 02.09.2015, 15:06 | |
|
Renji, тогда, мне кажется, вам будет интересно взглянуть на следующий линк, там правда нужно регистрироваться...
http://www.codeproject.com/Art... -Tokenizer
0
|
|
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
||
| 02.09.2015, 15:24 [ТС] | ||
|
0
|
||
|
|
|
| 02.09.2015, 15:37 | |
|
0
|
|
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
||
| 02.09.2015, 16:23 [ТС] | ||
|
Выразимся иначе. Парсер работает пока не кончится исходный текст. callback функция работает пока не кончится фрагмент исходного текста. Поэтому выносить парсер в callback функцию очень неудобно. И очень нехочется использовать библиотеки операющиеся на callback архитектуру.
0
|
||
|
|
|||
| 02.09.2015, 16:37 | |||
|
А парсить по мере скачивания бредовая идея по всем пунктам.
0
|
|||
|
46 / 35 / 24
Регистрация: 16.03.2015
Сообщений: 179
|
|
| 02.09.2015, 16:47 | |
|
Renji, мне кажется, что Вам нужно с этим ознакомиться: http://www.komodia.com/sniffer
Добавлено через 4 минуты ах-да, автор Барак, только exe выложил, видать бизнес в гору пошёл, хотя много лет прошло... Точно говоря, есть библиотека "Komodia", где - нет ни п о й д ё т - я запарился.
0
|
|
| 02.09.2015, 16:47 | |
|
Помогаю со студенческими работами здесь
17
Потоковое чтение из текстового файла в массив структур Потоковое видео через роутер, не могу смотреть потоковое видео на телефоне через Wi-Fi Чтение интернет страницы. Чтение информации со страницы в Интернете Запись и чтение из html страницы Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|