2 / 2 / 0
Регистрация: 10.12.2019
Сообщений: 51
|
|
1 | |
Парсит сайт не полностью28.11.2020, 14:18. Показов 386. Ответов 1
Метки нет (Все метки)
Есть код
Код
#include <string> #include <iostream> #include "curl/curl.h" //--------------------------------------------------------------------------- size_t write_data(char* ptr, size_t size, size_t nmemb, FILE* data) { return fwrite(ptr, size, nmemb, data); } using namespace std; //--------------------------------------------------------------------------- int main() { // Открываем файлы для заголовка и тела const std::string header_filename = "head.txt"; const std::string body_filename = "body.html"; FILE* header_file = fopen(header_filename.c_str(), "w"); if (header_file == NULL) return -1; FILE* body_file = fopen(body_filename.c_str(), "w"); if (body_file == NULL) return -1; // Выполняем запрос CURL* curl_handle = curl_easy_init(); if (curl_handle) { const std::string url = "https://vimetop.ru/"; curl_easy_setopt(curl_handle, CURLOPT_URL, url.c_str()); // сохраняем тело curl_easy_setopt(curl_handle, CURLOPT_WRITEDATA, body_file); curl_easy_setopt(curl_handle, CURLOPT_WRITEFUNCTION, write_data); // сохраняем заголовок curl_easy_setopt(curl_handle, CURLOPT_WRITEHEADER, header_file); CURLcode res = curl_easy_perform(curl_handle); if (res != CURLE_OK) { cout << "curl_easy_perform() failed: %s\n" << curl_easy_strerror(res) << endl; } curl_easy_cleanup(curl_handle); } std::cout << "\nDone!" << std::endl; getchar(); return 0; }
0
|
28.11.2020, 14:18 | |
Ответы с готовыми решениями:
1
Не парсит сайт Почему не парсит конкретный сайт? Программа автоматически парсит сайт и не отвечает при отсутствии интернет-соединения Сайт полностью на js |
Native x86
5514 / 3273 / 934
Регистрация: 13.02.2013
Сообщений: 10,424
|
|
28.11.2020, 15:04 | 2 |
Это потому что такой метод для современного веба уже не годится. Откройте этот сайт в браузере, нажмите Ctrl+U и сравните увиденное с тем, что дает ваша программа. Если там более-менее одно и то же, то значит программа работает правильно и дело в сайте.
Очень многие сайты для формирования страниц используют мегабайты скриптов, которые, выполняясь, подгружают контент с других URL-ов и распихивают его по практически пустой главной странице. Ваша программа только выкачивает страницу-пустышку, скрипты она не выполняет, и, следовательно, на выходе совсем не то, что отобразил бы браузер.
0
|
28.11.2020, 15:04 | |
28.11.2020, 15:04 | |
Помогаю со студенческими работами здесь
2
Сайт полностью на пхп Стырили полностью сайт. Сайт полностью во flash Сайт полностью выпал Сайт полностью на Ajax скачать сайт полностью Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |