С Новым годом! Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.86/7: Рейтинг темы: голосов - 7, средняя оценка - 4.86
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592

Правильно спарсить всю страницу

16.09.2014, 11:33. Показов 1599. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
AnsiString TFinderThr::GrabHtml(AnsiString strURL)
{
    AnsiString str;
    TIdHTTP *Http1;
    Http1 = new TIdHTTP(NULL);
    try {
        Http1->Request->UserAgent = "User-Agent NULL";
        Http1->HandleRedirects = true;
        Http1->OnWork = HttpWork;
        str = Http1->Get(strURL);
        }
    __finally {
        Http1->Free();
    }
    return str;
}
Код грабера.
Парсю страницу яндекса, потом пытаюсь это все вывести в Мемо. Такое ощущение что парсит он только часть страницы. и есть знаки вопроса.
1. Как спарсить всю страницу?
2 Как убрать знаки вопроса?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
16.09.2014, 11:33
Ответы с готовыми решениями:

Спарсить страницу
Есть ли функция на подобие file_get_cintents(), которая сразу разбивает текст по блокам? Пример: <!-- @html --> <html>...

Спарсить страницу
Всем привет) давно не заходил, нужна ваша помощь) procedure TForm1.Button1Click(Sender: TObject); var ip: string; begin ...

Не могу спарсить страницу
Всем здравствуйте. Подскажите, как спарсить страничку...

12
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
16.09.2014, 17:27
Вопросы:
1. Кодировка ответа.
2. Обработка капчи.
3. Если парсинг в HttpWork - то это неправильно. Там промежуточный результат, парсинг после Get саму str
Покажи процедуру парсинга - то?
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 11:17  [ТС]
httpWork пустой. парсю сам str. str не полный(т.е пытаюсь найти там выражение, которое есть при ctrl+u в браузере и в str нет его, как будто он обрезан) и с знаками вопроса.
По кодировке не понял. Где смотреть?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 11:32
Кодировку ответа надо смотреть в хедере.
К примеру так:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
  
  slRaw = new TStringList();
  TBytes B;
  AnsiString charset;
  AnsiString metacharset;
  std::auto_ptr<TBytesStream> BS(new TBytesStream(B));
  m = new TStringStream("",TEncoding::UTF8,true);
  http = new TIdHTTP();
  TIdSSLIOHandlerSocketOpenSSL *ssl= new TIdSSLIOHandlerSocketOpenSSL(NULL);
  http->IOHandler = ssl;
  http->HandleRedirects = true;
  try {
    String sEncodedURL;
    sEncodedURL = TIdURI::URLEncode(sURL);
    http->Get(sEncodedURL,m);
    result = http->ResponseCode;
    restext = http->ResponseText;
    charset = LowerCase(http->Response->CharSet);
    metacharset = LowerCase(http->Response->MetaHTTPEquiv->CharSet);
    m->Position = 0 ;
    BS->CopyFrom(m, m->Size);
    if ( (metacharset=="utf-8")||
         ((metacharset=="")&&(charset=="utf-8")) ) {
      B = TEncoding::Convert(TEncoding::UTF8, TEncoding::GetEncoding(1251),BS->Bytes,0,BS->Size);
    } else
      B = BS->Bytes;
 
    slRaw->Text = StringOf(B);
Это кусочек моего кода, недостающие элементы в принципе я думаю понятны и так. Код конечно не идеален, но работает.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33197 / 21493 / 8233
Регистрация: 22.10.2011
Сообщений: 36,886
Записей в блоге: 12
17.09.2014, 11:59
Цитата Сообщение от krv Посмотреть сообщение
Код конечно не идеален, но работает.
Попробуй этот код откомпилировать в Builder 6 - Builder 2007, там, где еще не было TEncoding. Ты ж даже не спросил о версии Билдера, которую использует ТС...
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 12:03  [ТС]
С кодировкой понятно. а с тем что не всю страницу грабит?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 12:23
UI,
Да, не компилируется в ранних.
Но это же пример для понимания сути.
Темы перекодирования без использования TEncoding есть на форуме.

Miller-1981,
у меня вытаскивает полностью. Размер страницы яндекса с результатами поиска - 10 ссылок от 170 до 400 кб
Размер страницы гугла - 76 кб.
И капчу гугл не просит...
Поэтому нужна дополнительная инфа, что у тебя происходит.
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 14:36  [ТС]
strLink = "http://yandex.ru/yandsearch?text=cscvisitor&lr=45";
Хочу спарсить эту ссылку и найти там "http://www.cscvisitor.*********.com"

Она там есть что доказывает ctrl+u на этой странице в браузере. но int n = str.AnsiPos(strLink) не находит ее.

Попробывал вывести str в Memo - там оказался обрезанный текст и этой ссылке конечно же не оказалось
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 15:03
код парсинга результатов:
В str - результат вычитки поиска яндекса
Log - функция логирования, в данном коде неинтересна
Известная библиотека RegExpr с небольшим удобным для меня изменением - символ-разделитель \ заменен на /

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
TRegExpr *r=new TRegExpr();
    try {
      r->Expression="По вашему запросу ничего не нашлось";
      if (r->Exec(str)) {
        Log("По запросу ничего не нашлось",2);
      } else {
        r->Expression = "<h2 class=\"serp-item__title clearfix\">.*?href=\"(.*?)\".*?<//h2>";
        if (r->Exec(str)) {
          do {
            AddResult(r->Match[1]);
          } while(r->ExecNext());
        }
      }
    } __finally {
      delete r;
    }
Уверен что у тебя яндекс не капчу просит?
сохрани str в файл и открой этот файл в браузере
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 15:45  [ТС]
Хм - сейчас сработало все - и ссылку нашел. Получается через несколько парсингов яндекс капчу запрашивает? а как ее обойти. есть способ?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 16:11
Есть.
Метод такой:
Парсим ответ.
1. Ищем строку
"<td class=\"b-captcha__layout__l.*?<img src=\"(.*?)\"" - это URL капчи
Если есть - ищем строки
"<input type=\"hidden\" name=\"key\" value=\"(.*?)\">" - это KEY
"<input type=\"hidden\" name=\"retpath\" value=\"(.*?)\">" - это RETPATH
потом пригодятся
2. Посылаем запрос на капчу
http->Get(url,m); (m- TMemoryStream)
3. Распознаем картинку из m (руками, или еще как) в строку captcha
4. Посылаем запрос вида
Code
1
"http://yandex.ru/checkcaptcha?key="+key+"&retpath="+retpath+"&rep="+captcha;
Почти все. Но. как кодировать запрос - разберешься сам.
Так же здесь, чтобы не спрашивало каждый раз - надо запоминать куки. Как работать с куками - в блоге у Evazart хорошо написано.
Почему я не даю сразу решения? А потому, что пока найдешь - много еще узнаешь нового, что пригодится.
1
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
05.01.2015, 17:30  [ТС]
ссылку на блог можно - чтото найти не могу
0
place status here
 Аватар для gunslinger
3186 / 2220 / 640
Регистрация: 20.07.2013
Сообщений: 6,010
05.01.2015, 18:51
https://www.cyberforum.ru/blog... og608.html
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.01.2015, 18:51
Помогаю со студенческими работами здесь

Как спарсить HTML страницу?
Вот скриншот Нужно получить &quot;Производитель&quot; и &quot;Toyota&quot;, хелп

Synapse: Как спарсить страницу HTTPS?
Как спарсить страницу HTTPS, https://vk.com, например? С помощью HttpGetText не парсит

Как спарсить страницу, типа авторизовавшись?
Здравствуйте товарищи!!! Помогите пожалуйста. Такая проблема: нужно получить страницу с сайта. Получать будем функцией ...

Спарсить текст с указанной страницу по регулярке
Все привет, помогите спарсить текст со страницы по этой \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5} регулярке. Тоесть есть 1 страница,...

Как спарсить целую страницу и со стилями
вот удалось спарсить страницу но она выводится без стилевого оформления. Есть ли возможность спарсить страницу вместе с стилевым...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru