Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/5: Рейтинг темы: голосов - 5, средняя оценка - 5.00
4 / 4 / 2
Регистрация: 04.04.2015
Сообщений: 186

Написание парсера для сайта, структура которого подгружается javascript

04.04.2018, 11:31. Показов 1058. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, попытался использовать Beautiful Soup, приходит ответ, в котором все элементы в body - являются javascript'ом. Как парсить такие сайты? Попытался использовать Selenium в 10 потоков, в итоге CPU загружено на 100%, а для того чтобы спарсить одну категорию товаров в 563 городах, и наличие этого товара в магазинах этих городов, требуется по подсчетам больше суток. Посоветуйте, что нибудь. Именно нужно скорость парсинга
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
04.04.2018, 11:31
Ответы с готовыми решениями:

Структура БД для парсера товаров
Всем добрый день! Как то давно написал desktop парсер, и вот решил что пора его усовершенствовать, сделать веб-версию и прикрутить БД для...

Можно ли считав код с сайта через HttpRequest получить код Javascript который динамически подгружается?
Вот допустим я считал c сайта https://www.betfair.com.au/exchange/plus/football код через HttpRequest,и занес это все в строковую...

Получить данные с сайта для простого парсера
Всем доброго времени суток. Мне нужно получить курс доллара с сайта (https://finance.rambler.ru/). Взял чисто для примера -...

4
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
04.04.2018, 12:28
Нужно использовать headless браузеры в таких случаях
0
4 / 4 / 2
Регистрация: 04.04.2015
Сообщений: 186
04.04.2018, 12:29  [ТС]
Цитата Сообщение от ТабуретY Посмотреть сообщение
Нужно использовать headless браузеры в таких случаях
Какие вы посоветуете?
0
1741 / 913 / 480
Регистрация: 05.12.2013
Сообщений: 3,074
04.04.2018, 12:38
Вот список https://github.com/dhamaniasad/HeadlessBrowsers
Я как-то использовал Nightmare. но на js

а вообще, то есть же сайты где парсят не задорого или даже бесплатно если не очень много, там можно посмотреть
0
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
04.04.2018, 16:22
> Написание парсера для сайта, структура которого подгружается javascript - Python

wget site or webpage
and scrap info =)

russian idea!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
04.04.2018, 16:22
Помогаю со студенческими работами здесь

Парсинг html сайта у которого frontend на javascript
Здравствуйте. Пытаюсь запарсить вот этот сайт: http://allsocial.ru Для начала пытаюсь получить html код, но он приходит не...

Написание парсера
Требуется программист специализирующийся на написании парсеров. Задача достаточно простая, примерное ТЗ вышлю тем кто меня устроит. ICQ...

Написание парсера
В общем не так давно учу VB, и тут поставил себе задачу написать "разделитель" объясню кто не понял к примеру есть текстовик с ...

Написание Web парсера
хочу написать парсер. предположим- есть сайт, на котором опр. инфа в виде таблицы на 4000 страниц. нужно чтоб при нахождении совпадении к...

Написание парсера файла
Исходя из этого вопроса. Суть такова. Имеется файл с таким содержимым: /idd(/.*)? u:object_r:idd_data_file:s0 ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru