Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.92/13: Рейтинг темы: голосов - 13, средняя оценка - 4.92
 Аватар для k1logram
0 / 0 / 0
Регистрация: 17.10.2012
Сообщений: 13

Кодировка кириллицы в парсере

23.11.2017, 17:01. Показов 2713. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет. не пойму в чем дело. простой парсер на curl. сайт в windows-1251. во время парсинга кодировку страницы перевожу в utf-8.
страница перекодируется, кириллица читается, все ок.
НО дальше получаю с помощью библиотеки nokogiri содержание мета тега title - и здесь в кириллице крякозябры((( что упустил?

curl

PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
$ch = curl_init();
 
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_PROXY, $ip);
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_TIMEOUT, 5);
curl_setopt($ch, CURLOPT_ENCODING, '');
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_MAXREDIRS, 10);/
curl_setopt($ch, CURLOPT_RETURNTRANSFER, '1');
 
if (!curl_errno($ch))
{
$html = curl_exec($ch);
 
$info = curl_getinfo($ch);
 
preg_match('#.*?charset\=(?<code>.*)#ui', $info['content_type'], $encoding);
$html = iconv(trim(mb_strtoupper($encoding['code'])), 'UTF-8', $html);
}
curl_close($ch);
return $html;
парсинг и вывод тайтла

PHP
1
2
3
4
5
6
7
8
9
$saw = new nokogiri($page);
$title = $saw->get('title')->toArray();
 
//1 вариант
echo $title[0]['#text'];
 
//2 вариант
$cod = mb_detect_encoding($title[0]['#text']);
echo $title = iconv(mb_strtoupper($cod), 'UTF-8', $title[0]['#text']);
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
23.11.2017, 17:01
Ответы с готовыми решениями:

Кодировка при шифровании кириллицы
Недавно только перешол на виделеній сервер, ищё ево толком не знаю. Когда шыфрую строку и вывожу её, мне выводит...

Кодировка текста в файле: кракозябры вместо кириллицы
всем привет! столкнулся с проблемой. пишу текст в файл, но там кракозябры вместо кириллицы. курил ветки форума, что сделано: в хтаксес...

Ошибка в парсере
Добрый день, есть парсер, все работает отлично. Надо вытащить ссылку &quot;/news/issue/2017-07-28&quot; из сайта &lt;div...

1
ytf
276 / 259 / 185
Регистрация: 15.08.2017
Сообщений: 1,483
27.11.2017, 18:35
проверьте кодировку файлов nokogiri

Добавлено через 1 минуту
все файлы должны быть в utf-8 без bom, и парсер-скрипт и нокогири и включаемые нокогири скрипты
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
27.11.2017, 18:35
Помогаю со студенческими работами здесь

Рандомный прокси в парсере
Всем добра, прошупомощи поскольку потратил ночь и ничего не придумал. Итак, суть проблемы (весь код в спойлер закину внизу): ...

Не работает функция в парсере
Есть 4 условия парсинга, в зависимости от условия нужно парсить ту или иную инфу со страницы. Хотел описать функцию в которую будут...

Новый атрибут в парсере
При публикации новости через визуальный редактор DLE обрезает запись data-fancybox=&quot;group&quot;. Я так понимаю, без нее невозможно...

Не могу осилить if (пробую сделать условие в парсере)
Здравствуйте, пытаюсь сделать парсер для обновления валют. Сам парсинг в массив получается, а вот задать условие для выбора нужной валюты...

Ошибка при парсере (The specified path, file name, or both are too long.)
Всем добрый вечер. Помогите пожалуйста. Нужно спарсить рисунок $cimg = curl_init (); curl_setopt ($cimg, CURLOPT_URL,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru