С Новым годом! Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.58/19: Рейтинг темы: голосов - 19, средняя оценка - 4.58
0 / 0 / 1
Регистрация: 25.03.2012
Сообщений: 11
.NET 4.x

Многопоточный парсер сайтов: как обрабатывать javaScript

13.12.2012, 19:30. Показов 3670. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!
Есть задание написать парсер 3-х сайтов с извлечением определенной информации (для примера картинки). Каждый сайт должен парсится в отдельном потоке. Все бы ничего, кажется создаем поток, в нем объект WebRequest и парсим. Но вся проблема в том, что некоторые картинки можно получить только отработав javaScript функцию на сайте. А как известно WebRequest это не делает.
Можно конечно извратиться и сделать что-то наподобие этого:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
private void button1_Click(object sender, EventArgs e) {
            RunThread();
}
 
private void runBrowserThread(Uri url) {
    var th = new Thread(() => {
        var br = new WebBrowser();
        br.DocumentCompleted += browser_DocumentCompleted;
        br.Navigate(url);
        Application.Run();
    });
    th.SetApartmentState(ApartmentState.STA);
    th.Start();
}
 
void browser_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e) {
    var br = sender as WebBrowser;
    HtmlElementCollection collection = br.Document.GetElementsByTagName("a");
                foreach (HtmlElement element in collection)
                {
                    if (element.GetAttribute("rel") == "phone")
                    { 
                         element.InvokeMember("click");
                    }
                }
    HtmlElement element = br.Document.GetElementsByTagName("img")[0];
    if (element.GetAttribute("class") == "contactimg")
    {
         imgUrl = htmlElement.GetAttribute("src");
    }
    this.Invoke(new MethodInvoker(() =>
    {
         //do something;
         }), null);
    Application.ExitThread();
 
}
Однако если в методе browser_DocumentCompleted выполнять javaScript, то соответственно страница перезагружается и самое интересное в атрибуте br.DocumentStream выдается NullPointer с текстом ""br.DocumentStream" запустило исключение типа "System.IO.FileNotFoundException"".

Может у кого-нибудь есть более изящные способы решения данной задачи? Или хотя бы решение как исправить данную ошибку))
Заранее благодарен
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
13.12.2012, 19:30
Ответы с готовыми решениями:

Многопоточный парсер
Пытаюсь создать многопоточный парсер, но появилась проблема. Пытался сделать через Thread + делегат и через task, но при использовании: ...

Как лучше реализовать парсер HTML/XML, CSS, JavaScript?
Пишу свою интегрированную среду разработки для HTML, CSS и JavaScript. Считаю необходимым реализовать опциональную валидацию кода в...

Дайте совет:как правильно собрать многопоточный парсер динамических страниц
Привет форумчане. Дайте советы, какую библиотеку, класс взять, которые помогут правильно и быстро спарсить динамически изменяемые...

2
29 / 29 / 8
Регистрация: 13.12.2009
Сообщений: 70
13.12.2012, 19:52
Проблема может быть в том, что событие DocumentCompleted может вызываться несколько раз (In case of multiple frames, DocumentComplete gets fired multiple times...)
Поставьте бряк на событии и проверьте. Если это так, то действуйте по хорошей статье... статья и здесь для познавания.
0
0 / 0 / 1
Регистрация: 25.03.2012
Сообщений: 11
14.12.2012, 14:34  [ТС]
Попробовал метод
C#
1
2
3
4
5
6
7
8
void BrowserDocumentCompleted(object sender,
        WebBrowserDocumentCompletedEventArgs e)
{
  if (e.Url.AbsolutePath != (sender as WebBrowser).Url.AbsolutePath)
    return; 
 
  //The page is finished loading 
}
В метод browser_DocumentCompleted программа заходит более 3-х раз, после первого раза, попадает в данное условие и делает return ((((.
Потестировал выполнение данного javascript на компоненте WebBrowser. Отрабатывал javascript по нажатию кнопки. Результатом этого теста стало подтверждение того, что даже в интерфейсе при отработке скрипта, страница в бразуере перезагружается но уже с необходимым мне изображением.

Может есть еще какие-нибудь предложения по исправлению данной ошибки.

Добавлено через 18 часов 19 минут
Промучался полдня и дошел до того, что при вызове метода DownLoadCompleted выполняется javascript. Однако как мне забрать модифицированный скриптом html?
Если после загрузки страницы выполнить какое-либо действие (к примеру нажать на кнопку) в котором получать доступ к необходимому элементу, то все проходит на ура...

Итак вопрос! Как можно выполнить какое-нибудь действия после выполнения метода DownLoadCompleted?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
14.12.2012, 14:34
Помогаю со студенческими работами здесь

парсер сайтов
Добрый день. подскажите пожалуйста. нужно написать парсер который будет собирать информацыю про хайп мониторинги. и нужну ищо что бы можна...

Многопоточный парсер, как организовать?
Привет всем зашедшим. Вот такая задача есть. Организовать что-то вроде мнoгoпoтoчного пapсера. Который будет следить за определенной...

Как можно обрабатывать две скрипта javascript одновременно?
Встал другой вопрос, как можно обрабатывать две скрипта javasceipt одновременно? По отдельности работают нормально, а вот вместе никак,...

Многопоточный HTML Парсер
Суть задачи состоит в том чтобы парсить html по ссылке на наличие email-ов, в случае наличия таковых, выводим ссылку и email-ы которые...

Многопоточный парсер по ftp
Есть удаленный сервер, куда есть коннект по ftp, требуется рекурсивно парсить около (700К) файлов (маска имени, контент файлов итд ). Объем...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru