Форум программистов, компьютерный форум, киберфорум
Ruby
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/11: Рейтинг темы: голосов - 11, средняя оценка - 5.00
4 / 4 / 0
Регистрация: 20.07.2014
Сообщений: 59

Многопоточный парсер на Ruby и Watir

29.10.2014, 11:51. Показов 2157. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Собственно есть сайт, обычно с большим количеством страниц, в силу его специфики, пришлось использовать Watir, вытягивать информацию мне нужно только с некоторых столбцов таблицы, по этому на парсинг каждой страницы уходит довольно не мало времени (~10секунд), а с учетом перехода по страницам, общее время явно увеличивается, по этому запала мне одна идейка, что если спарсивать эти столбцы в режиме многопоточности.. это была маленькая предистория, набросал кода мемного и получилось такое вот:
Ruby
1
2
3
4
5
6
7
8
9
10
threads = []
 
['//*[@id="wrapperbg"]/div[2]/div/table/tbody/tr/td[10]/span[1]', '//div[@id="wrapperbg"]/div[2]/div/table/tbody/tr/td[3]'].each do |i|
  threads << Thread.new do
    $browser.elements(:xpath => i).each do |l|
        puts l.text
    end
  end
end
threads.each(&:join)
При каждом запуске, случаются такие нюансы:
1. i - ю присваивается "//*[@id="wrapperbg"]/div[2]/div/table/tbody/tr/td[10]/span[1]//div[@id="wrapperbg"]/div[2]/div/table/tbody/tr/td[3]"
2. А в те моменты когда присваивается нормально, то выводит только для одного xpath - а, потом выводит такое вот сообщение:
Ruby
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
/home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/protocol.rb:155:in `select': closed stream (IOError)
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/protocol.rb:155:in `rescue in rbuf_fill'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/protocol.rb:152:in `rbuf_fill'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/protocol.rb:134:in `readuntil'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/protocol.rb:144:in `readline'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http/response.rb:39:in `read_status_line'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http/response.rb:28:in `read_new'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1408:in `block in transport_request'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1405:in `catch'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1405:in `transport_request'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1378:in `request'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1371:in `block in request'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:853:in `start'
    from /home/alex/.rvm/rubies/ruby-2.1.3/lib/ruby/2.1.0/net/http.rb:1369:in `request'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/http/default.rb:83:in `response_for'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/http/default.rb:39:in `request'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/http/common.rb:40:in `call'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/bridge.rb:638:in `raw_execute'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/bridge.rb:616:in `execute'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/remote/bridge.rb:594:in `find_elements_by'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/selenium-webdriver-2.43.0/lib/selenium/webdriver/common/search_context.rb:62:in `find_elements'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/locators/element_locator.rb:126:in `wd_find_all_by'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/locators/element_locator.rb:72:in `find_all_by_one'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/locators/element_locator.rb:48:in `locate_all'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/element_collection.rb:96:in `elements'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/element_collection.rb:86:in `to_a'
    from /home/alex/.rvm/gems/ruby-2.1.3/gems/watir-webdriver-0.6.11/lib/watir-webdriver/element_collection.rb:29:in `each'
    from ms.rb:46:in `block (2 levels) in <main>'
Ну, собственно, вопрос: Как посоветуете решить данную проблему?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
29.10.2014, 11:51
Ответы с готовыми решениями:

Watir + Ruby
Доброго времени суток!) Возник вопрос.. Есть checklist: &lt;div class=&quot;checklistbox HOTELS&quot; name=&quot;HOTELS&quot;&gt; ...

Многопоточный парсер
Пытаюсь создать многопоточный парсер, но появилась проблема. Пытался сделать через Thread + делегат и через task, но при использовании: ...

Многопоточный парсер по ftp
Есть удаленный сервер, куда есть коннект по ftp, требуется рекурсивно парсить около (700К) файлов (маска имени, контент файлов итд ). Объем...

1
-8 / 8 / 4
Регистрация: 14.10.2014
Сообщений: 61
30.10.2014, 20:16
у вас HTML не является корректным XML, чтобы к нему можно было применять XPath
или подключите компоненты, преобразующие HTML в валидный XML или не используйте XPath
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
30.10.2014, 20:16
Помогаю со студенческими работами здесь

Многопоточный HTML Парсер
Суть задачи состоит в том чтобы парсить html по ссылке на наличие email-ов, в случае наличия таковых, выводим ссылку и email-ы которые...

Многопоточный .csv парсер
Доброго времени суток) Суть вопроса думаю понятна из заголовка. файл .csv содержит строки типа ...

Многопоточный парсер и сохранение результатов
Пусть мы хотим написать некий многопоточный парсер. Схема работы такая. Программа на вход получает список из нескольких тысяч...

Многопоточный парсер, как организовать?
Привет всем зашедшим. Вот такая задача есть. Организовать что-то вроде мнoгoпoтoчного пapсера. Который будет следить за определенной...

Как сделать многопоточный парсер
Я хочу сделать многопоточный парсер, но у меня просто нагружается процессор Задача моей программы в извлечении текстовой информации из...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru