Форум программистов, компьютерный форум, киберфорум
C++/CLI
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/9: Рейтинг темы: голосов - 9, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3

Неверная кодировка при загрузке страницы с помощью WinINET

14.02.2016, 16:26. Показов 1876. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброе время суток! Пожалуйста пролейте свет на следующую проблему: при закачке средствами Wininet страниц, большинство из них читаются в буфер(и соот-но записываются в файл) с "кракозябрами". При попытке их расшифровать на http://www.artlebedev.ru/tools/decoder/ пишет "CP1251 → UTF-8". Чем только не пытался их орусить, но тщетно (локаль, wstring и т.п.), мой уровень довольно низок. Заранее спасибо.
Пример кода:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
#include <stdafx.h>
#include <windows.h>
#include <wininet.h>
#include <iostream>
#include <locale.h>
#pragma comment ( lib, "wininet.lib" )
#include <string> 
#include <fstream>
#include <regex>
#include <algorithm>
#include <wchar.h>
 
using namespace System;
 
int main(array<System::String ^> ^args)
{
char buf[256];
std::wstring wURL = L"http://js-prog.blogspot.ru/2013/03/url-javascript.html";
unsigned long len, offs;
std::wstring wUSER = L"Mozilla/5.0 (Windows NT 5.1)";
HINTERNET session, file,hResource;
session = InternetOpenW(LPCWSTR(wUSER.c_str()),
                        INTERNET_OPEN_TYPE_DIRECT,
                        NULL, NULL, 0);
file = InternetOpenUrlW(session,LPCWSTR(wURL.c_str()), NULL,-1,0,0);
std::string str("");
int count=0;
char * fileName = "C:\\example.txt"; // Путь к файлу для записи
FILE * ffile = fopen(fileName, "w");
do {
   InternetReadFile(file, (LPVOID)buf, sizeof(buf), &len);
   if (len>0) 
   {
      str.append(buf);
      fputs(buf, ffile);
      offs += len;
   }}  while (len);
fclose(ffile);
 
InternetCloseHandle(file);
InternetCloseHandle(session);
 return 0;
}
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
14.02.2016, 16:26
Ответы с готовыми решениями:

Неверная кодировка при загрузке файла в RichTextBox
Доброго времен суток, ув. форумчане! Я столкнулся со следующей проблемой: когда я считываю с файла текст и пытаюсь вывести его в...

Неверная кодировка при загрузке файла в datagridview
Ребята, выручайте! На форме есть datagridview, 3 textbox-a, и кнопка &quot;Добавить данные&quot;, меню: Загрузить, Сохранить. Сохраняет данные в...

Неверная кодировка при загрузке HTML в Memo
гружу в мемо хтмл таким образом memo1.lines.Loadfromfile('index.html'); вместо русских букв кроказябры( как сделать чтоб русские...

5
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,898
Записей в блоге: 1
14.02.2016, 22:35
Vladcos, код неправильно работает с кодировками. Функция InternetReadFile возвращает байты которые затем переводятся в строку. Текст на странице представлен в кодировке UTF-8, ты же трактуешь его как текст в кодировке по умолчанию которая на твоей машине windows-1251. Исправить это можно путем записи байтов:
Кликните здесь для просмотра всего текста
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
std::wstring wURL = L"http://js-prog.blogspot.ru/2013/03/url-javascript.html";
std::wstring wUSER = L"Mozilla/5.0 (Windows NT 5.1)";
HINTERNET session, file, hResource;
session = InternetOpenW(LPCWSTR(wUSER.c_str()), INTERNET_OPEN_TYPE_DIRECT, NULL, NULL, 0);
file = InternetOpenUrlW(session, LPCWSTR(wURL.c_str()), NULL, -1, 0, 0);
byte buf[256];
char * fileName = "C:\\example.txt"; // Путь к файлу для записи
FILE * ffile = fopen(fileName, "w");
for (;;)
{
    unsigned long len;
    InternetReadFile(file, (LPVOID)buf, sizeof(buf), &len);
    if (len == 0) break;
 
    fwrite(buf, 1, len, ffile);
}
fclose(ffile);
 
InternetCloseHandle(file);
InternetCloseHandle(session);

Другой более предпочтительный способ - использовать .NET классы.
C++
1
2
3
4
5
6
using namespace System::Net;
// ...
WebClient^ web = gcnew WebClient();
web->Headers->Add("User-Agent", "Mozilla/5.0 (Windows NT 5.1)");
web->DownloadFile("http://js-prog.blogspot.ru/2013/03/url-javascript.html", "C:\\example.txt");
delete web;
0
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3
15.02.2016, 12:52  [ТС]
Спасибо за советы! Работает, однако)) Но в дальнейшем я использую строку, куда записывал буфер, для работы с regex (парсеры не для моей задачи). Подскажите, пожалуйста: как слить в строку буфер без искажения.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,898
Записей в блоге: 1
15.02.2016, 17:08
Лучший ответ Сообщение было отмечено tezaurismosis как решение

Решение

Vladcos, например, так:
C++
1
2
3
4
WebClient^ web = gcnew WebClient();
web->Headers->Add("User-Agent", "Mozilla/5.0 (Windows NT 5.1)");
String^ html = web->DownloadString("http://js-prog.blogspot.ru/2013/03/url-javascript.html");
delete web;
0
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3
17.02.2016, 00:15  [ТС]
Спасибо!! средства .net поражают лаконичностью)) но пока обошелся MultibytetoWstring...Еще не совсем уж в тему, но приевшеся: ищу(пытаюсь) в полученном тексте содержимое между тегами средствами tr1::regex.Второй день парюсь, что бы вырвать кусок многострочного текста, но тщетно: модификаторы не удается применить..где-то читал, что синтаксис крайне ограничен и модификаторы в выражении не распознаются..флагов соответствующих не наблюдаю...неужели не обойтись без установки доп.библиотеки??
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,898
Записей в блоге: 1
17.02.2016, 00:20
Vladcos, в .NET есть отличный класс Regex.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
17.02.2016, 00:20
Помогаю со студенческими работами здесь

Неверная кодировка при получении кода страницы через IdHTTP
Здравствуйте! Нужна ваша помощь в решении проблемы. ПРоблема состоит в том, что при получении кода страницы через IdHTTP код отображается...

Кодировка html страницы при загрузке в QWebView
Уважаемые всезнайки, у вашего незнайки возник вопрос: QWebview.load(url) сам анализирует какую кодировку ему использовать, если он не...

Неверная кодировка страницы
Сайт - zapad-s тчк ru Только на главной такие штуки в кнопках - ПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅ ПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅ ...

Неверная кодировка веб-страницы
если в кратце, имеется функция принимающая с сервера xml в кодировке utf-8 public static string RecvMessage(string Path) { ...

Неверная кодировка Веб-страницы
Здравствуйте. Проблема следующая установил OpenFire сервер и как плагин подключил пакет Jappix(джаббер). Все прекрасно но с русской...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru