4 / 4 / 2
Регистрация: 04.04.2015
Сообщений: 186
|
|
1 | |
Парсеры сайтов24.12.2017, 21:25. Показов 611. Ответов 2
Метки нет (Все метки)
Здравствуйте, пишу парсер на связке request+Beautiful Soup 4. Переход по 170 url и парсинг ссылок занимает около 300 секунд. Мне кажется это слишком долго, возможно вы знаете более быстрые парсеры.
В Beatiful Soup 4 использовал как и lxml парсер, так и html.parser, но результаты почти одинаковые (lxml иногда бывает быстрее) Возможно вы использовали другие связки. Может быть urlib быстрее работает чем request? Не охота как-то переписывать код под разные связки, возможно кто-то уже опробовал их всех, и может сказать, какие из них лучше. Для эмуляции браузера (ввод в форму и т.д) использую связки Selenium+Beatiful Soup 4, но мне кажется он все так же долго выполняет парсинг (на 30 секунд дольше чем request+Beatiful Soup). Возможно вы посоветуете другие вариант Мой парсер парсинг выполняет онлайн (без сохранения Html страницы) в 1 поток. Хочу переделать выполнение под несколько потоков, но для начала нужно выбрать лучшую связку.
0
|
24.12.2017, 21:25 | |
Ответы с готовыми решениями:
2
Пытаюсь сделать проверку сайтов через virus total и вывести списки надежных и не надежных сайтов Продаю уникальные парсеры сайтов Есть ли готовые универсальные парсеры-фреймворки или парсеры-библиотеки? Парсеры |
5898 / 3355 / 1035
Регистрация: 03.11.2009
Сообщений: 10,003
|
|
25.12.2017, 06:39 | 3 |
0
|
25.12.2017, 06:39 | |
25.12.2017, 06:39 | |
Помогаю со студенческими работами здесь
3
Парсеры Парсеры строк Существующие парсеры ms word Боты, Автореггеры, Парсеры Парсеры, анализаторы, проверки и т.п. Парсеры товаров опенкарт Парсеры для строк Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |