Форум программистов, компьютерный форум, киберфорум
C++/CLI
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/9: Рейтинг темы: голосов - 9, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3

Неверная кодировка при загрузке страницы с помощью WinINET

14.02.2016, 16:26. Показов 1851. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброе время суток! Пожалуйста пролейте свет на следующую проблему: при закачке средствами Wininet страниц, большинство из них читаются в буфер(и соот-но записываются в файл) с "кракозябрами". При попытке их расшифровать на http://www.artlebedev.ru/tools/decoder/ пишет "CP1251 → UTF-8". Чем только не пытался их орусить, но тщетно (локаль, wstring и т.п.), мой уровень довольно низок. Заранее спасибо.
Пример кода:

C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
#include <stdafx.h>
#include <windows.h>
#include <wininet.h>
#include <iostream>
#include <locale.h>
#pragma comment ( lib, "wininet.lib" )
#include <string> 
#include <fstream>
#include <regex>
#include <algorithm>
#include <wchar.h>
 
using namespace System;
 
int main(array<System::String ^> ^args)
{
char buf[256];
std::wstring wURL = L"http://js-prog.blogspot.ru/2013/03/url-javascript.html";
unsigned long len, offs;
std::wstring wUSER = L"Mozilla/5.0 (Windows NT 5.1)";
HINTERNET session, file,hResource;
session = InternetOpenW(LPCWSTR(wUSER.c_str()),
                        INTERNET_OPEN_TYPE_DIRECT,
                        NULL, NULL, 0);
file = InternetOpenUrlW(session,LPCWSTR(wURL.c_str()), NULL,-1,0,0);
std::string str("");
int count=0;
char * fileName = "C:\\example.txt"; // Путь к файлу для записи
FILE * ffile = fopen(fileName, "w");
do {
   InternetReadFile(file, (LPVOID)buf, sizeof(buf), &len);
   if (len>0) 
   {
      str.append(buf);
      fputs(buf, ffile);
      offs += len;
   }}  while (len);
fclose(ffile);
 
InternetCloseHandle(file);
InternetCloseHandle(session);
 return 0;
}
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
14.02.2016, 16:26
Ответы с готовыми решениями:

Неверная кодировка при загрузке файла в RichTextBox
Доброго времен суток, ув. форумчане! Я столкнулся со следующей проблемой: когда я считываю с файла текст и пытаюсь вывести его в...

Неверная кодировка при загрузке файла в datagridview
Ребята, выручайте! На форме есть datagridview, 3 textbox-a, и кнопка &quot;Добавить данные&quot;, меню: Загрузить, Сохранить. Сохраняет данные в...

Неверная кодировка при загрузке HTML в Memo
гружу в мемо хтмл таким образом memo1.lines.Loadfromfile('index.html'); вместо русских букв кроказябры( как сделать чтоб русские...

5
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18243 / 14157 / 5366
Регистрация: 17.03.2014
Сообщений: 28,847
Записей в блоге: 1
14.02.2016, 22:35
Vladcos, код неправильно работает с кодировками. Функция InternetReadFile возвращает байты которые затем переводятся в строку. Текст на странице представлен в кодировке UTF-8, ты же трактуешь его как текст в кодировке по умолчанию которая на твоей машине windows-1251. Исправить это можно путем записи байтов:
Кликните здесь для просмотра всего текста
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
std::wstring wURL = L"http://js-prog.blogspot.ru/2013/03/url-javascript.html";
std::wstring wUSER = L"Mozilla/5.0 (Windows NT 5.1)";
HINTERNET session, file, hResource;
session = InternetOpenW(LPCWSTR(wUSER.c_str()), INTERNET_OPEN_TYPE_DIRECT, NULL, NULL, 0);
file = InternetOpenUrlW(session, LPCWSTR(wURL.c_str()), NULL, -1, 0, 0);
byte buf[256];
char * fileName = "C:\\example.txt"; // Путь к файлу для записи
FILE * ffile = fopen(fileName, "w");
for (;;)
{
    unsigned long len;
    InternetReadFile(file, (LPVOID)buf, sizeof(buf), &len);
    if (len == 0) break;
 
    fwrite(buf, 1, len, ffile);
}
fclose(ffile);
 
InternetCloseHandle(file);
InternetCloseHandle(session);

Другой более предпочтительный способ - использовать .NET классы.
C++
1
2
3
4
5
6
using namespace System::Net;
// ...
WebClient^ web = gcnew WebClient();
web->Headers->Add("User-Agent", "Mozilla/5.0 (Windows NT 5.1)");
web->DownloadFile("http://js-prog.blogspot.ru/2013/03/url-javascript.html", "C:\\example.txt");
delete web;
0
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3
15.02.2016, 12:52  [ТС]
Спасибо за советы! Работает, однако)) Но в дальнейшем я использую строку, куда записывал буфер, для работы с regex (парсеры не для моей задачи). Подскажите, пожалуйста: как слить в строку буфер без искажения.
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18243 / 14157 / 5366
Регистрация: 17.03.2014
Сообщений: 28,847
Записей в блоге: 1
15.02.2016, 17:08
Лучший ответ Сообщение было отмечено tezaurismosis как решение

Решение

Vladcos, например, так:
C++
1
2
3
4
WebClient^ web = gcnew WebClient();
web->Headers->Add("User-Agent", "Mozilla/5.0 (Windows NT 5.1)");
String^ html = web->DownloadString("http://js-prog.blogspot.ru/2013/03/url-javascript.html");
delete web;
0
0 / 0 / 0
Регистрация: 14.02.2016
Сообщений: 3
17.02.2016, 00:15  [ТС]
Спасибо!! средства .net поражают лаконичностью)) но пока обошелся MultibytetoWstring...Еще не совсем уж в тему, но приевшеся: ищу(пытаюсь) в полученном тексте содержимое между тегами средствами tr1::regex.Второй день парюсь, что бы вырвать кусок многострочного текста, но тщетно: модификаторы не удается применить..где-то читал, что синтаксис крайне ограничен и модификаторы в выражении не распознаются..флагов соответствующих не наблюдаю...неужели не обойтись без установки доп.библиотеки??
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18243 / 14157 / 5366
Регистрация: 17.03.2014
Сообщений: 28,847
Записей в блоге: 1
17.02.2016, 00:20
Vladcos, в .NET есть отличный класс Regex.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
17.02.2016, 00:20
Помогаю со студенческими работами здесь

Неверная кодировка при получении кода страницы через IdHTTP
Здравствуйте! Нужна ваша помощь в решении проблемы. ПРоблема состоит в том, что при получении кода страницы через IdHTTP код отображается...

Кодировка html страницы при загрузке в QWebView
Уважаемые всезнайки, у вашего незнайки возник вопрос: QWebview.load(url) сам анализирует какую кодировку ему использовать, если он не...

Неверная кодировка страницы
Сайт - zapad-s тчк ru Только на главной такие штуки в кнопках - ПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅ ПЇЅПЇЅПЇЅПЇЅПЇЅПЇЅ ...

Неверная кодировка веб-страницы
если в кратце, имеется функция принимающая с сервера xml в кодировке utf-8 public static string RecvMessage(string Path) { ...

Неверная кодировка Веб-страницы
Здравствуйте. Проблема следующая установил OpenFire сервер и как плагин подключил пакет Jappix(джаббер). Все прекрасно но с русской...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru