|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
Скачать html страницу (boost.beast)03.01.2019, 17:42. Показов 9511. Ответов 11
Метки нет (Все метки)
Всем доброе время суток, дали задачу реализовать crawler,скачать html страницу необходимо с помощью boost.beast к сожалению потратив очень много времени разобраться в документации этого чуда я не смог, обьясните пожалуйста как скачать html страницу с помощью boost beast
0
|
|
| 03.01.2019, 17:42 | |
|
Ответы с готовыми решениями:
11
boost/regex Поиск ссылок в html-файле
|
|
|
||||||
| 03.01.2019, 18:34 | ||||||
Сообщение было отмечено Peoples как решение
Решение
1
|
||||||
|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
| 03.01.2019, 18:47 [ТС] | |
|
Ты серьезно? спасибо огромное,этот пример я и сам нашел, только я попросил обьяснить как это сделать и как это работает, к тому же я уверен что можно это сделать немного проще, мне так кажется во всяком случае
0
|
|
|
|
|
| 04.01.2019, 11:01 | |
|
Это не пример а код для скачивания https-страницы сайта. Кажется, вопрос был именно в этом. А вот насчёт "можно это сделать немного проще" что то сомнительно.
Да, и OpenSSL должен быть установлен сборка OpenSSL для MSVS2017
0
|
|
|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
| 04.01.2019, 19:33 [ТС] | |
|
да ,извините , вы правы , собрал я это без проблем особы , все работает, потихоньку разбираюсь, у меня к вам еще один вопрос, скажите пожалуйста если задача стоит рекурсивно обойти все ссылки на страницы это тоже нужно использовать boost.beast или что-то другое? вообще с задании нужно использовать boost.beast and gumbo parser ,вот пытаюсь разобраться что для чего
0
|
|
|
|
||||||
| 05.01.2019, 16:28 | ||||||
|
Загружает исходную страницу и выводит в консоль все найденные на ней ссылки. Работает пока только с https-страницами. Парсер - gumbo.
0
|
||||||
|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
| 05.01.2019, 18:14 [ТС] | |
|
igorrr37, спасибо большое)
Добавлено через 45 минут igorrr37, я кстати правильно понимаю что это ассинхронный вариант? начал разбираться в этом более глубоко и как оказалось io_context класс для работы с асинхронными соединениями
0
|
|
|
|
|
| 05.01.2019, 18:34 | |
|
Это синхронный. Для асинхронного надо юзать ф-ции с приставкой async_. Ещё возможен вариант на корутинах.
Добавлено через 2 минуты Вот асинхронный
0
|
|
|
|
||||||
| 06.01.2019, 15:30 | ||||||
|
Добавил глубину обхода и загрузку http-страниц. Работает только с абсолютными ссылками
0
|
||||||
|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
| 07.01.2019, 16:02 [ТС] | |
|
igorrr37, Спасибо.я немного не понгимаю некоторых моментов,зачем в начале вектор строк для 1 ссылки? разве непроще создать просто строку?
0
|
|
|
0 / 0 / 0
Регистрация: 14.10.2018
Сообщений: 32
|
|
| 08.01.2019, 18:31 [ТС] | |
|
igorrr37, скажите,при рекурсивном обходе ссылок с глубиной скажем 2-3 или больше это нормально что одна и таже ссылка встречается несколько раз? я полагаю что в принципе так и должно быть ведь со вспомогательных страниц или каких-то других ресурсов может вести ссылка на главную страницу,да и в целом одна и та жа ссылка может встречаться на нескольких разных ссылках,у меня вопрос,как этого избежать?
0
|
|
|
|
||||||
| 09.01.2019, 15:44 | ||||||
|
Добавил исправление некоторых относительных ссылок в абсолютные, удаление повторяющихся ссылок и учёт тега <base>
0
|
||||||
| 09.01.2019, 15:44 | |
|
Помогаю со студенческими работами здесь
12
Boost asio не хочет возвратить код html при 302 редиректе Как скачать html страницу?
Скачать HTML страницу через Сокеты Скачать html страницу в формате txt Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html
Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
|