Форум программистов, компьютерный форум, киберфорум
Delphi
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 02.10.2013
Сообщений: 5

Парсинг сайта

22.11.2013, 19:04. Показов 517. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем доброго времени суток, у меня возникла проблема с парсигом сайта и проблема в том что он выводит вместе с нужной информацией ненужную. Помогите пожалуйста разобраться. Не могу понять как сделать так что бы выводи информацию только с вкладки co-citation. Вот исходник
Delphi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
procedure TForm1.Button1Click(Sender: TObject);
var
   HTTP: THTTPSend;
  str,prx2:tstringlist;
  reg2:TRegExpr;
  i,a,s,d:integer;
  strok:string;
begin
HTTP:=THTTPSend.Create;
   str:=tstringlist.Create;
 HTTP.HTTPMethod('GET', 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.26.8267');
        str.LoadFromStream(HTTP.Document);
             prx2:= tstringlist.Create;
       reg2:=TRegExpr.Create;
       reg2.Expression:=  '<a href="(.*?)</a>' ;
       if reg2.exec(str.Text) then repeat
         prx2.Add(reg2.Match[1]);
         until not reg2.ExecNext;
 
 
        a:=0;
        for i:=0 to prx2.Count -1     do
        begin
          strok:=prx2.Strings[a];
           Delete(strok,1,Pos('">',strok)+1) ;
            strok:=Trim(strok) ;
 
            Memo1.Lines.Add(Utf8Decode(strok));
          Inc(a);
    
 
 
        end;
        Inc(s);
end;
 
 
end.
Вот ссылка http://citeseerx.ist.psu.edu/v... 67&type=cc, Заранее спасибо)

Добавлено через 16 часов 52 минуты
Пытался сделать так что бы он парсил между "<a href="/showciting;jsessionid=E5A07E2A95BEDF6F41 E35665DFB6D66B?cid=" и "</a>" не получается..пожалуйста подскажите что делать ?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.11.2013, 19:04
Ответы с готовыми решениями:

Парсинг сайта
Здравствуйте программисты :) Помогите пожалуйста с такой проблемкой: нужно вытащить IP адрес с сайта (http://www.myip.ru/) и занести в...

Парсинг данных с сайта с последующей обработкой
Хочу написать ПО для парсинга данных с сайта спортивной статистики (ru.corner-stats.com) и соответствующей обработки этих данных. Сам...

Парсинг с сайта
Привет! Подскажите пожалуйста, как организовать парсинг например со страницы ...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
22.11.2013, 19:04
Помогаю со студенческими работами здесь

Парсинг сайта
Есть пару вопросиков 1) Как сделать чтобы программы читала юникод?? Допустим ник состоит из юникода. но прога его не читает( Команда...

Парсинг сайта
В куске htmt кода имеется следующий текст &lt;tr&gt; &lt;td colspan=3&gt;Курс Банка России на 08.03.12&lt;/td&gt; &lt;/tr&gt; &lt;tr&gt; &lt;td...

Парсинг ссылок сайта
Здравствуйте. Хочу получить из страницы сайта все ссылки на его новости (их 10 штук). Пишу такой код: procedure...

Парсинг прокси с сайта
Написал не большой прокси парсер по ссылкам. Все работает как надо, прокси парсит. Но не хочет парсить прокси вот это этой ссылки....

Парсинг с сайта через WebBrowser
Нужно спарсить прокси с одного сайта. Там стоит похоже защита от DDOS поэтому обычными методами не работает. Получается получить список...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru