С Новым годом! Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.81/21: Рейтинг темы: голосов - 21, средняя оценка - 4.81
 Аватар для ASCII
99 / 70 / 13
Регистрация: 15.12.2013
Сообщений: 463

Работа с кодировками

16.07.2016, 03:36. Показов 4435. Ответов 43
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.
Есть следующая проблема: есть программа, которая загружает html код страницы с сайта. Затем из этого html кода необходимо выдернуть все ссылки. Проблема заключается в том, что html документ может быть сохранен в любой кодировке. Поэтому, т.к. для себя я выбрал использовать utf-8, мне необходимо эти символы преобразовывать в utf-8.


1) Какие есть стандартные средства для перекодировки символов?
2) Какую литературу можно почитать из области Quick Start? (Кроме Страуструпа, в специальном издании все слишком запутанно)

0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.07.2016, 03:36
Ответы с готовыми решениями:

Работа с кодировками файла (АНСИ и ЮТФ-8)
Всем здрасти! Подскажите пожалуйста, каким образом можно реализовать следующее: 1) Как программно преобразовать текст из ANSI в...

Работа с кодировками при чтении файла
Здравствуйте! Пишу программу, одна из задач - реализовать чтение файла с сервера. Использую следующий код: var text = new...

Проблемы с кодировками
Имеется имя файла, считанное с текущей директории (папки Windows). В имени присутствуют пробелы и кирилица. Как переименовать или...

43
Заблокирован
16.07.2016, 08:15
Может загрузить в специальный блокнот(Notepad++), там поменять кодировку и сохранить. Так пойдет?
0
7804 / 6568 / 2988
Регистрация: 14.04.2014
Сообщений: 28,705
16.07.2016, 08:20
Использовать utf-8 для обработки текста - плохое решение. Надо wchar_t брать. Перекодировка функциями типа MultiByteToWideChar().
0
 Аватар для SerVal
37 / 36 / 9
Регистрация: 16.04.2015
Сообщений: 283
16.07.2016, 08:26
По-моему, в этом случае проще и удобнее использовать C#. В нём изменение кодировок встроено.
(ссылки выдираются regex-ом).
0
Эксперт С++
 Аватар для hoggy
8973 / 4319 / 960
Регистрация: 15.11.2014
Сообщений: 9,760
16.07.2016, 09:11
Цитата Сообщение от ASCII Посмотреть сообщение
в любой кодировке
Цитата Сообщение от ASCII Посмотреть сообщение
преобразовывать в utf-8
нет проблемы перегнать в утф-8.
проблема - узнать в какой кодировке исходный текст.
стандартных средств для этого не существует.

Цитата Сообщение от nmcf Посмотреть сообщение
Перекодировка функциями типа MultiByteToWideChar().
исходный текст может быть в какой угодно кодировке.
как MultiByteToWideChar вам поможет?
0
Комп_Оратор)
Эксперт по математике/физике
 Аватар для IGPIGP
9005 / 4706 / 630
Регистрация: 04.12.2011
Сообщений: 14,003
Записей в блоге: 16
16.07.2016, 09:43
Цитата Сообщение от hoggy Посмотреть сообщение
проблема - узнать в какой кодировке исходный текст.
над заголовком - тег <meta charset="...">. Можно пробовать меняя кодировки прочесть этот тег и потом спарсить кодировку для использования. Если указана отсутствующая кодировка или есть ошибки кодировки, то по любому это не проблема программы.
1
Эксперт С++
 Аватар для hoggy
8973 / 4319 / 960
Регистрация: 15.11.2014
Сообщений: 9,760
16.07.2016, 09:48
Цитата Сообщение от IGPIGP Посмотреть сообщение
над заголовком - тег <meta charset="...">
ну вот если только парсить заголовок,
а потом похоже, придется сделать свитч-кейс
1
7804 / 6568 / 2988
Регистрация: 14.04.2014
Сообщений: 28,705
16.07.2016, 10:04
Цитата Сообщение от hoggy Посмотреть сообщение
исходный текст может быть в какой угодно кодировке.
Из его вопроса не ясно в чём проблема - в определении кодировки или в преобразовании. Я подумал про второе, потому что там про средства преобразования символов упоминается.
0
Эксперт С++
 Аватар для hoggy
8973 / 4319 / 960
Регистрация: 15.11.2014
Сообщений: 9,760
16.07.2016, 10:05
Цитата Сообщение от nmcf Посмотреть сообщение
Из его вопроса не ясно в чём проблема - в определении кодировки или в преобразовании
и то, и другое очевидно жеж.
1
Ушел с форума
Эксперт С++
 Аватар для Убежденный
16481 / 7444 / 1187
Регистрация: 02.05.2013
Сообщений: 11,616
Записей в блоге: 1
16.07.2016, 10:07
Цитата Сообщение от ASCII Посмотреть сообщение
есть программа, которая загружает html код страницы с сайта. Затем из этого html кода необходимо выдернуть все ссылки. Проблема заключается в том, что html документ может быть сохранен в любой кодировке.
По стандарту HTTP, веб-сервер должен указывать кодировку содержимого в заголовке Content-Type.
Например:
Code
1
Content-Type: text/html; charset=utf-8
Кодировка по умолчанию (т.е. если не указана) - iso-8859-1.

К сожалению, некоторые веб-серверы в Content-Type пишут одно, а в HTML
передают совсем другое.
5
16.07.2016, 10:09

Не по теме:

Цитата Сообщение от hoggy Посмотреть сообщение
и то, и другое очевидно жеж.
Мне нет.

0
2688 / 2260 / 244
Регистрация: 03.07.2012
Сообщений: 8,231
Записей в блоге: 1
16.07.2016, 10:11
Цитата Сообщение от hoggy Посмотреть сообщение
исходный текст может быть в какой угодно кодировке.
как MultiByteToWideChar вам поможет?
В чем проблема? MultiByteToWideChar умеет преобразовывать и UTF8 и CP866 и CP1251 и KOI и море других кодировок
0
Эксперт С++
 Аватар для hoggy
8973 / 4319 / 960
Регистрация: 15.11.2014
Сообщений: 9,760
16.07.2016, 10:20
Цитата Сообщение от zer0mail Посмотреть сообщение
В чем проблема?
преобразуйте мне текст в любой кодировке в утф-8 пожалуйста.
приведите пример кода, как вы это сделаете.
0
16.07.2016, 10:23

Не по теме:


Напомнило:
Если у вас есть строка, но вы не знаете, в какой она кодировке - у вас нет этой строки. (c)

0
2688 / 2260 / 244
Регистрация: 03.07.2012
Сообщений: 8,231
Записей в блоге: 1
16.07.2016, 12:32
Цитата Сообщение от hoggy Посмотреть сообщение
преобразуйте мне текст в любой кодировке в утф-8 пожалуйста.
Давайте спросим у ASCII, что он понимал под "любой кодировкой":
а) набор из 4-5 кириллических кодировок, как полагаю я.
б) любую кодировку на Земле (не будем распространять на Вселенную), как, наверное, полагает hoggy.
0
Комп_Оратор)
Эксперт по математике/физике
 Аватар для IGPIGP
9005 / 4706 / 630
Регистрация: 04.12.2011
Сообщений: 14,003
Записей в блоге: 16
16.07.2016, 12:46
Цитата Сообщение от zer0mail Посмотреть сообщение
набор из 4-5 кириллических кодировок, как полагаю я.
Виртуальный шовинизмъ (имхо). Пусть будут и не кириллические. Можно выполнить расширяемую прогу (наследованием например). Тут есть строчка:
Цитата Сообщение от ASCII Посмотреть сообщение
html код страницы с сайта
Если страница оформлена правильно, то можно поискать тег с кодировкой, если нет, (и нет набора слов, некоторые из которых обязательно присутствуют в тексте), то нет надёжного решения.
На правах свободной придури:
Прога с искусственным глюкованием интеллектом:
Можно парсить десяток-два слов и отправлять запрос в поисковик, в разных кодировках. По одному слову за раз. Где ответов не равных "по вашему запросу не найдено ни одной ссылки" больше, там и правильная кодировка. Можно и свой расширяемый словарь завести.
Это медленно и ненадёжно. То есть по-человечески.
1
Эксперт С++
 Аватар для hoggy
8973 / 4319 / 960
Регистрация: 15.11.2014
Сообщений: 9,760
16.07.2016, 12:50
Цитата Сообщение от zer0mail Посмотреть сообщение
Давайте спросим у ASCII, что он понимал под "любой кодировкой":
в этом нет необходимости.
"любая кодировка" обозначает "любую кодировку".
внезапно.
1
Модератор
Эксперт С++
 Аватар для zss
13771 / 10964 / 6491
Регистрация: 18.12.2011
Сообщений: 29,241
16.07.2016, 12:51
Цитата Сообщение от IGPIGP Посмотреть сообщение
и отправлять запрос в поисковик, в разных кодировках
Поисковики сами исправляют кодировку, так что это не поможет.
1
Комп_Оратор)
Эксперт по математике/физике
 Аватар для IGPIGP
9005 / 4706 / 630
Регистрация: 04.12.2011
Сообщений: 14,003
Записей в блоге: 16
16.07.2016, 12:57
Цитата Сообщение от zss Посмотреть сообщение
Поисковики сами исправляют кодировку, так что это не поможет.
Как я понимаю, поисковик приводит кодировку к кодировке полученной от браузера. То есть, слово (строка) после обработки изменится. Если Вы (прога) угадали кодировку, то она будет соответствовать браузеру и поисковик не должен её менять. Тут много "если". Что и говорить. Потому и написал что с глюкованием. Статистически что-то полезное может выдавать.
1
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
16.07.2016, 13:45
Цитата Сообщение от ASCII Посмотреть сообщение
Есть следующая проблема: есть программа, которая загружает html код страницы с сайта. Затем из этого html кода необходимо выдернуть все ссылки. Проблема заключается в том, что html документ может быть сохранен в любой кодировке.
В такой постановке задачи никакой проблемы нет. Первые 128 символов у всех (популярных) восьмибитовых кодировок идентичны, а больше ничего для выдирания <a href=... и не требуется.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.07.2016, 13:45
Помогаю со студенческими работами здесь

Проблемы с кодировками
есть код system(&quot;systeminfo &gt;&gt; qq.txt&quot;); textBox1-&gt;Text=System::IO::File::ReadAllText(&quot;qq.txt&quot;,System::Text::Encoding::Default); ...

Проблемы с кодировками
Решил переделать свою CMS с win1251 на utf8. Проблема возникает такого рода. Есть например переменная с русским тексом в utf8 $var =...

Путаница с кодировками
Смотрите, хочу записать какой-то текст в файл на рабочий стол (ОС Windows 7, JDK8). Изначально файла нет, так что он создаётся, а затем...

Непонятки с кодировками
База данных MySql у базы Character set: cp1251--Windows Cyrilic, Collation: cp1251_general_ci. В SQL Connection св-во...

Проблема с кодировками
Установил Nuked Klan на сервер, и взялся его переводить (движок французский). Большинство модулей перевел: новости ссылки, загрузки и т.п....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Закрытая тема Создать тему
Новые блоги и статьи
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит токи на L и напряжения на C в установ. режимах до и. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru