Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.86/7: Рейтинг темы: голосов - 7, средняя оценка - 4.86
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592

Правильно спарсить всю страницу

16.09.2014, 11:33. Показов 1667. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
AnsiString TFinderThr::GrabHtml(AnsiString strURL)
{
    AnsiString str;
    TIdHTTP *Http1;
    Http1 = new TIdHTTP(NULL);
    try {
        Http1->Request->UserAgent = "User-Agent NULL";
        Http1->HandleRedirects = true;
        Http1->OnWork = HttpWork;
        str = Http1->Get(strURL);
        }
    __finally {
        Http1->Free();
    }
    return str;
}
Код грабера.
Парсю страницу яндекса, потом пытаюсь это все вывести в Мемо. Такое ощущение что парсит он только часть страницы. и есть знаки вопроса.
1. Как спарсить всю страницу?
2 Как убрать знаки вопроса?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
16.09.2014, 11:33
Ответы с готовыми решениями:

Спарсить страницу
Есть ли функция на подобие file_get_cintents(), которая сразу разбивает текст по блокам? Пример: <!-- @html --> <html>...

Спарсить страницу
Всем привет) давно не заходил, нужна ваша помощь) procedure TForm1.Button1Click(Sender: TObject); var ip: string; begin ...

Не могу спарсить страницу
Всем здравствуйте. Подскажите, как спарсить страничку...

12
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
16.09.2014, 17:27
Вопросы:
1. Кодировка ответа.
2. Обработка капчи.
3. Если парсинг в HttpWork - то это неправильно. Там промежуточный результат, парсинг после Get саму str
Покажи процедуру парсинга - то?
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 11:17  [ТС]
httpWork пустой. парсю сам str. str не полный(т.е пытаюсь найти там выражение, которое есть при ctrl+u в браузере и в str нет его, как будто он обрезан) и с знаками вопроса.
По кодировке не понял. Где смотреть?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 11:32
Кодировку ответа надо смотреть в хедере.
К примеру так:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
  
  slRaw = new TStringList();
  TBytes B;
  AnsiString charset;
  AnsiString metacharset;
  std::auto_ptr<TBytesStream> BS(new TBytesStream(B));
  m = new TStringStream("",TEncoding::UTF8,true);
  http = new TIdHTTP();
  TIdSSLIOHandlerSocketOpenSSL *ssl= new TIdSSLIOHandlerSocketOpenSSL(NULL);
  http->IOHandler = ssl;
  http->HandleRedirects = true;
  try {
    String sEncodedURL;
    sEncodedURL = TIdURI::URLEncode(sURL);
    http->Get(sEncodedURL,m);
    result = http->ResponseCode;
    restext = http->ResponseText;
    charset = LowerCase(http->Response->CharSet);
    metacharset = LowerCase(http->Response->MetaHTTPEquiv->CharSet);
    m->Position = 0 ;
    BS->CopyFrom(m, m->Size);
    if ( (metacharset=="utf-8")||
         ((metacharset=="")&&(charset=="utf-8")) ) {
      B = TEncoding::Convert(TEncoding::UTF8, TEncoding::GetEncoding(1251),BS->Bytes,0,BS->Size);
    } else
      B = BS->Bytes;
 
    slRaw->Text = StringOf(B);
Это кусочек моего кода, недостающие элементы в принципе я думаю понятны и так. Код конечно не идеален, но работает.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33403 / 21513 / 8236
Регистрация: 22.10.2011
Сообщений: 36,914
Записей в блоге: 12
17.09.2014, 11:59
Цитата Сообщение от krv Посмотреть сообщение
Код конечно не идеален, но работает.
Попробуй этот код откомпилировать в Builder 6 - Builder 2007, там, где еще не было TEncoding. Ты ж даже не спросил о версии Билдера, которую использует ТС...
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 12:03  [ТС]
С кодировкой понятно. а с тем что не всю страницу грабит?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 12:23
UI,
Да, не компилируется в ранних.
Но это же пример для понимания сути.
Темы перекодирования без использования TEncoding есть на форуме.

Miller-1981,
у меня вытаскивает полностью. Размер страницы яндекса с результатами поиска - 10 ссылок от 170 до 400 кб
Размер страницы гугла - 76 кб.
И капчу гугл не просит...
Поэтому нужна дополнительная инфа, что у тебя происходит.
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 14:36  [ТС]
strLink = "http://yandex.ru/yandsearch?text=cscvisitor&lr=45";
Хочу спарсить эту ссылку и найти там "http://www.cscvisitor.*********.com"

Она там есть что доказывает ctrl+u на этой странице в браузере. но int n = str.AnsiPos(strLink) не находит ее.

Попробывал вывести str в Memo - там оказался обрезанный текст и этой ссылке конечно же не оказалось
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 15:03
код парсинга результатов:
В str - результат вычитки поиска яндекса
Log - функция логирования, в данном коде неинтересна
Известная библиотека RegExpr с небольшим удобным для меня изменением - символ-разделитель \ заменен на /

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
TRegExpr *r=new TRegExpr();
    try {
      r->Expression="По вашему запросу ничего не нашлось";
      if (r->Exec(str)) {
        Log("По запросу ничего не нашлось",2);
      } else {
        r->Expression = "<h2 class=\"serp-item__title clearfix\">.*?href=\"(.*?)\".*?<//h2>";
        if (r->Exec(str)) {
          do {
            AddResult(r->Match[1]);
          } while(r->ExecNext());
        }
      }
    } __finally {
      delete r;
    }
Уверен что у тебя яндекс не капчу просит?
сохрани str в файл и открой этот файл в браузере
0
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
17.09.2014, 15:45  [ТС]
Хм - сейчас сработало все - и ссылку нашел. Получается через несколько парсингов яндекс капчу запрашивает? а как ее обойти. есть способ?
0
74 / 54 / 17
Регистрация: 10.07.2014
Сообщений: 329
17.09.2014, 16:11
Есть.
Метод такой:
Парсим ответ.
1. Ищем строку
"<td class=\"b-captcha__layout__l.*?<img src=\"(.*?)\"" - это URL капчи
Если есть - ищем строки
"<input type=\"hidden\" name=\"key\" value=\"(.*?)\">" - это KEY
"<input type=\"hidden\" name=\"retpath\" value=\"(.*?)\">" - это RETPATH
потом пригодятся
2. Посылаем запрос на капчу
http->Get(url,m); (m- TMemoryStream)
3. Распознаем картинку из m (руками, или еще как) в строку captcha
4. Посылаем запрос вида
Code
1
"http://yandex.ru/checkcaptcha?key="+key+"&retpath="+retpath+"&rep="+captcha;
Почти все. Но. как кодировать запрос - разберешься сам.
Так же здесь, чтобы не спрашивало каждый раз - надо запоминать куки. Как работать с куками - в блоге у Evazart хорошо написано.
Почему я не даю сразу решения? А потому, что пока найдешь - много еще узнаешь нового, что пригодится.
1
33 / 32 / 2
Регистрация: 26.01.2009
Сообщений: 592
05.01.2015, 17:30  [ТС]
ссылку на блог можно - чтото найти не могу
0
place status here
 Аватар для gunslinger
3190 / 2227 / 640
Регистрация: 20.07.2013
Сообщений: 6,023
05.01.2015, 18:51
https://www.cyberforum.ru/blog... og608.html
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.01.2015, 18:51
Помогаю со студенческими работами здесь

Как спарсить HTML страницу?
Вот скриншот Нужно получить &quot;Производитель&quot; и &quot;Toyota&quot;, хелп

Synapse: Как спарсить страницу HTTPS?
Как спарсить страницу HTTPS, https://vk.com, например? С помощью HttpGetText не парсит

Как спарсить страницу, типа авторизовавшись?
Здравствуйте товарищи!!! Помогите пожалуйста. Такая проблема: нужно получить страницу с сайта. Получать будем функцией ...

Спарсить текст с указанной страницу по регулярке
Все привет, помогите спарсить текст со страницы по этой \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,5} регулярке. Тоесть есть 1 страница,...

Как спарсить целую страницу и со стилями
вот удалось спарсить страницу но она выводится без стилевого оформления. Есть ли возможность спарсить страницу вместе с стилевым...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .
Автоматическое создание документа при проведении другого документа
Maks 29.03.2026
Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2. Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники". В. . .
Настройка движения справочника по регистру сведений
Maks 29.03.2026
Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии. . . .
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru