|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
||||||
Правильно спарсить всю страницу16.09.2014, 11:33. Показов 1599. Ответов 12
Метки нет (Все метки)
Парсю страницу яндекса, потом пытаюсь это все вывести в Мемо. Такое ощущение что парсит он только часть страницы. и есть знаки вопроса. 1. Как спарсить всю страницу? 2 Как убрать знаки вопроса?
0
|
||||||
| 16.09.2014, 11:33 | |
|
Ответы с готовыми решениями:
12
Спарсить страницу Спарсить страницу Не могу спарсить страницу |
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
|
| 16.09.2014, 17:27 | |
|
Вопросы:
1. Кодировка ответа. 2. Обработка капчи. 3. Если парсинг в HttpWork - то это неправильно. Там промежуточный результат, парсинг после Get саму str Покажи процедуру парсинга - то?
0
|
|
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 11:17 [ТС] | |
|
httpWork пустой. парсю сам str. str не полный(т.е пытаюсь найти там выражение, которое есть при ctrl+u в браузере и в str нет его, как будто он обрезан) и с знаками вопроса.
По кодировке не понял. Где смотреть?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 11:32 | ||||||
|
Кодировку ответа надо смотреть в хедере.
К примеру так:
0
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 12:03 [ТС] | |
|
С кодировкой понятно. а с тем что не всю страницу грабит?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
|
| 17.09.2014, 12:23 | |
|
UI,
Да, не компилируется в ранних. Но это же пример для понимания сути. Темы перекодирования без использования TEncoding есть на форуме. Miller-1981, у меня вытаскивает полностью. Размер страницы яндекса с результатами поиска - 10 ссылок от 170 до 400 кб Размер страницы гугла - 76 кб. И капчу гугл не просит... Поэтому нужна дополнительная инфа, что у тебя происходит.
0
|
|
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 14:36 [ТС] | |
|
strLink = "http://yandex.ru/yandsearch?text=cscvisitor&lr=45";
Хочу спарсить эту ссылку и найти там "http://www.cscvisitor.*********.com" Она там есть что доказывает ctrl+u на этой странице в браузере. но int n = str.AnsiPos(strLink) не находит ее. Попробывал вывести str в Memo - там оказался обрезанный текст и этой ссылке конечно же не оказалось
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 15:03 | ||||||
|
код парсинга результатов:
В str - результат вычитки поиска яндекса Log - функция логирования, в данном коде неинтересна Известная библиотека RegExpr с небольшим удобным для меня изменением - символ-разделитель \ заменен на /
сохрани str в файл и открой этот файл в браузере
0
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 17.09.2014, 15:45 [ТС] | |
|
Хм - сейчас сработало все - и ссылку нашел. Получается через несколько парсингов яндекс капчу запрашивает? а как ее обойти. есть способ?
0
|
|
|
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
|
||||||
| 17.09.2014, 16:11 | ||||||
|
Есть.
Метод такой: Парсим ответ. 1. Ищем строку "<td class=\"b-captcha__layout__l.*?<img src=\"(.*?)\"" - это URL капчи Если есть - ищем строки "<input type=\"hidden\" name=\"key\" value=\"(.*?)\">" - это KEY "<input type=\"hidden\" name=\"retpath\" value=\"(.*?)\">" - это RETPATH потом пригодятся 2. Посылаем запрос на капчу http->Get(url,m); (m- TMemoryStream) 3. Распознаем картинку из m (руками, или еще как) в строку captcha 4. Посылаем запрос вида
Так же здесь, чтобы не спрашивало каждый раз - надо запоминать куки. Как работать с куками - в блоге у Evazart хорошо написано. Почему я не даю сразу решения? А потому, что пока найдешь - много еще узнаешь нового, что пригодится.
1
|
||||||
|
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
|
|
| 05.01.2015, 17:30 [ТС] | |
|
ссылку на блог можно - чтото найти не могу
0
|
|
|
place status here
3186 / 2220 / 640
Регистрация: 20.07.2013
Сообщений: 6,010
|
|
| 05.01.2015, 18:51 | |
|
1
|
|
| 05.01.2015, 18:51 | |
|
Помогаю со студенческими работами здесь
13
Как спарсить HTML страницу? Synapse: Как спарсить страницу HTTPS? Как спарсить страницу, типа авторизовавшись?
Как спарсить целую страницу и со стилями Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|