Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
4 / 4 / 2
Регистрация: 04.04.2015
Сообщений: 186
1

Парсеры сайтов

24.12.2017, 21:25. Показов 611. Ответов 2
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Здравствуйте, пишу парсер на связке request+Beautiful Soup 4. Переход по 170 url и парсинг ссылок занимает около 300 секунд. Мне кажется это слишком долго, возможно вы знаете более быстрые парсеры.
В Beatiful Soup 4 использовал как и lxml парсер, так и html.parser, но результаты почти одинаковые (lxml иногда бывает быстрее)
Возможно вы использовали другие связки.
Может быть urlib быстрее работает чем request? Не охота как-то переписывать код под разные связки, возможно кто-то уже опробовал их всех, и может сказать, какие из них лучше.
Для эмуляции браузера (ввод в форму и т.д) использую связки Selenium+Beatiful Soup 4, но мне кажется он все так же долго выполняет парсинг (на 30 секунд дольше чем request+Beatiful Soup). Возможно вы посоветуете другие вариант
Мой парсер парсинг выполняет онлайн (без сохранения Html страницы) в 1 поток.
Хочу переделать выполнение под несколько потоков, но для начала нужно выбрать лучшую связку.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
24.12.2017, 21:25
Ответы с готовыми решениями:

Пытаюсь сделать проверку сайтов через virus total и вывести списки надежных и не надежных сайтов
я новичок в python - прошу строго не судить. Пытаюсь сделать проверку сайтов через virus total и...

Продаю уникальные парсеры сайтов
Доброго времени суток. В последнее время стал часто заниматься разработкой парсеров, вот решил...

Есть ли готовые универсальные парсеры-фреймворки или парсеры-библиотеки?
Есть ли готовые универсальные парсеры-фреймворки или парсеры-библиотеки?

Парсеры
С добрым временем суток,уважаемые коллеги. Ребят, кто работал по парсерам? Затея такая под ряд...

2
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
24.12.2017, 23:10 2
Распределить запросы между потоками/процессами
Цитата Сообщение от danilshik Посмотреть сообщение
Beautiful Soup 4.
Можно заменить libxml для увеличения скорости.
0
Эксперт по компьютерным сетям
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
25.12.2017, 06:39 3
Цитата Сообщение от danilshik Посмотреть сообщение
Переход по 170 url и парсинг ссылок занимает около 300 секунд. Мне кажется это слишком долго, возможно вы знаете более быстрые парсеры.
параллелить?
0
25.12.2017, 06:39
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
25.12.2017, 06:39
Помогаю со студенческими работами здесь

Парсеры
Здравствуйте, хотел бы попросить о помощи. Нуждаюсь в учебниках, уроках, примерах о разного рода...

Парсеры строк
После обработки некоторых данных, получаю строку такого типа:...

Существующие парсеры ms word
Добрый вечер. Кто знает существующие парсеры word документов(топ 5)? Если можно, напишите книги,...

Боты, Автореггеры, Парсеры
Пишу авторегистраторы, накрутчики, различные боты любой сложности. Для соц сетей, сайтов...

Парсеры, анализаторы, проверки и т.п.
Доброо времени суток! Проблема такая: Есть форма, в ней есть <textarea>, пользователь набирает в...

Парсеры товаров опенкарт
Парсеры товаров опенкарт ! Сущетсвуют ли парсеры товаров опенкарт? Возможно с другого опенкарт...

Парсеры для строк
Существуют ли классы парсеры для строк со множеством вложенных подстрок и массивов : {{,{}},{}]}} ?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru