|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
||||||
Правильно спарсить всю страницу16.09.2014, 11:33. Показов 1667. Ответов 12
Метки нет (Все метки)
Парсю страницу яндекса, потом пытаюсь это все вывести в Мемо. Такое ощущение что парсит он только часть страницы. и есть знаки вопроса. 1. Как спарсить всю страницу? 2 Как убрать знаки вопроса?
0
|
||||||
| 16.09.2014, 11:33 | |
|
Ответы с готовыми решениями:
12
Спарсить страницу Спарсить страницу Не могу спарсить страницу |
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
|
| 16.09.2014, 17:27 | |
|
Вопросы:
1. Кодировка ответа. 2. Обработка капчи. 3. Если парсинг в HttpWork - то это неправильно. Там промежуточный результат, парсинг после Get саму str Покажи процедуру парсинга - то?
0
|
|
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 11:17 [ТС] | |
|
httpWork пустой. парсю сам str. str не полный(т.е пытаюсь найти там выражение, которое есть при ctrl+u в браузере и в str нет его, как будто он обрезан) и с знаками вопроса.
По кодировке не понял. Где смотреть?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 11:32 | ||||||
|
Кодировку ответа надо смотреть в хедере.
К примеру так:
0
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 12:03 [ТС] | |
|
С кодировкой понятно. а с тем что не всю страницу грабит?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
|
| 17.09.2014, 12:23 | |
|
UI,
Да, не компилируется в ранних. Но это же пример для понимания сути. Темы перекодирования без использования TEncoding есть на форуме. Miller-1981, у меня вытаскивает полностью. Размер страницы яндекса с результатами поиска - 10 ссылок от 170 до 400 кб Размер страницы гугла - 76 кб. И капчу гугл не просит... Поэтому нужна дополнительная инфа, что у тебя происходит.
0
|
|
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 14:36 [ТС] | |
|
strLink = "http://yandex.ru/yandsearch?text=cscvisitor&lr=45";
Хочу спарсить эту ссылку и найти там "http://www.cscvisitor.*********.com" Она там есть что доказывает ctrl+u на этой странице в браузере. но int n = str.AnsiPos(strLink) не находит ее. Попробывал вывести str в Memo - там оказался обрезанный текст и этой ссылке конечно же не оказалось
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 15:03 | ||||||
|
код парсинга результатов:
В str - результат вычитки поиска яндекса Log - функция логирования, в данном коде неинтересна Известная библиотека RegExpr с небольшим удобным для меня изменением - символ-разделитель \ заменен на /
сохрани str в файл и открой этот файл в браузере
0
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 15:45 [ТС] | |
|
Хм - сейчас сработало все - и ссылку нашел. Получается через несколько парсингов яндекс капчу запрашивает? а как ее обойти. есть способ?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 16:11 | ||||||
|
Есть.
Метод такой: Парсим ответ. 1. Ищем строку "<td class=\"b-captcha__layout__l.*?<img src=\"(.*?)\"" - это URL капчи Если есть - ищем строки "<input type=\"hidden\" name=\"key\" value=\"(.*?)\">" - это KEY "<input type=\"hidden\" name=\"retpath\" value=\"(.*?)\">" - это RETPATH потом пригодятся 2. Посылаем запрос на капчу http->Get(url,m); (m- TMemoryStream) 3. Распознаем картинку из m (руками, или еще как) в строку captcha 4. Посылаем запрос вида
Так же здесь, чтобы не спрашивало каждый раз - надо запоминать куки. Как работать с куками - в блоге у Evazart хорошо написано. Почему я не даю сразу решения? А потому, что пока найдешь - много еще узнаешь нового, что пригодится.
1
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 05.01.2015, 17:30 [ТС] | |
|
ссылку на блог можно - чтото найти не могу
0
|
|
|
place status here
3190 / 2227 / 640
Регистрация: 20.07.2013
Сообщений: 6,023
|
|
| 05.01.2015, 18:51 | |
|
1
|
|
| 05.01.2015, 18:51 | |
|
Помогаю со студенческими работами здесь
13
Как спарсить HTML страницу? Synapse: Как спарсить страницу HTTPS? Как спарсить страницу, типа авторизовавшись?
Как спарсить целую страницу и со стилями Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
|
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
|
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию.
2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
|
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
|
|
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO
Апнулись до NET10.
Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта
так и в интерактивном режиме. из сложностей - чисто функциональный подход.
Решил. . .
|
Автоматическое создание документа при проведении другого документа
Maks 29.03.2026
Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2.
Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники".
В. . .
|
Настройка движения справочника по регистру сведений
Maks 29.03.2026
Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии.
. . .
|
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2.
При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
|