Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.66/202: Рейтинг темы: голосов - 202, средняя оценка - 4.66
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62

Перекодировка строки cp1251 в utf8

30.06.2011, 23:46. Показов 40354. Ответов 15
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Помогите советом, плз. Нужно получить заголовок страницы, и, если кодировка страницы cp1251, перекодировать ее в utf8. Пробую так:

PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
$content = @file_get_contents($_GET['url']);
      
      if($content) {
      
       //OK opening url
        
        //we try get title...
        
        $title = getTextBetweenTags($content, "title");
        
        if($title!="") {
            
          // we have title!
          if ($title ['encoding'] == 'CP1251')
            {$title = iconv ("CP1251", "UTF-8", $title);}
          //$title = iconv ("CP1251", "UTF-8", $title);
          $title = str_replace('"',"'",$title);
              $title = ($title); 
            
        } else {
        
          // we haven't title, we will use url like name
          
          $title = $_GET['url'];
        
        }
вместо заголовка пустота... Если выставить iconv без условия, cp1251 кодирует нормально, а utf8 выдает кракозябрами.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
30.06.2011, 23:46
Ответы с готовыми решениями:

Перекодировка из UTF-8 в cp1251 ( AJAX и PHP )
Здраствуйте! Нужен совет по AJAX. Вот файл с AJAX: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"...

Функция перекодировки utf8 -> cp1251 с поддержкой казахских символов
Выкладываю сюда (т.к. не нашел более подходящего места) функцию, которая корректно перекодирует все символы (включая казахские символы) из...

Перекодировка строки из UTF8 в cp1251
Доброго времени суток. Почему не получается из UTF8 преобразовать в cp1251? std::string utf8_to_cp1251(const char *str) { ...

15
мастер топоров
 Аватар для Koran
917 / 742 / 101
Регистрация: 16.08.2009
Сообщений: 1,476
01.07.2011, 00:50
вот кой-че накопал:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
<?php
function utf2win1251($content)
{
                $newcontent = "";
 
                for ($i = 0; $i < strlen($content); $i++)
                {
                        $c1 = substr($content, $i, 1);
                        $byte1 = ord($c1);
                        if ($byte1>>5 == 6)
                        {
                                $i++;
                                $c2 = substr($content, $i, 1);
                                $byte2 = ord($c2);
                                $byte1 &= 31;
                                $byte2 &= 63;
                                $byte2 |= (($byte1 & 3) << 6);
                                $byte1 >>= 2;
                                $word = ($byte1<<8) + $byte2;
 
                                if ($word == 1025) $newcontent .= chr(168);
                                else if ($word == 1105) $newcontent .= chr(184);
                                else if ($word >= 0x0410 && $word <= 0x044F) $newcontent .= chr($word-848);
                                else
                                {
                                        $a = dechex($byte1);
                                        $a = str_pad($a, 2, "0", STR_PAD_LEFT);
                                        $b = dechex($byte2);
                                        $b = str_pad($b, 2, "0", STR_PAD_LEFT);
                                        $newcontent .= "&#x".$a.$b.";";
                                }
                        }
                        else
                                $newcontent .= $c1;
                }
 
        return $newcontent;
}
 
function win12512utf($content)
{
                $content = preg_replace("#%u([0-9A-F]{1,4})#ie", "'&#'.hexdec('\\1').';'", $content);
                $content = html_entity_decode(urldecode($content), ENT_NOQUOTES, "windows-1251");
 
        return $content;
}
?>
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
<?
function _charset_utf8_win($s)
{
  $r='';
  $state=1;
  for ($i=0;$i<strlen($s);$i++) {="" $c="ord($s[$i]);" switch($state)="" case="" 1:="" not="" a="" special="" symbol="" if($c="">&lt;=127)
        {
          $r.=$s[$i];
        }
        else
        {
          if(($c&gt;&gt;5)==6)
          {
            $c1=$c;
            $state=2;
          }
          else
            $r.=chr(128);
        }
        break;
      case 2: //an utf-8 encoded symbol has been meet
        $new_c2=($c1&amp;3)*64+($c&amp;63);
        $new_c1=($c1&gt;&gt;2)&amp;5;
        $new_i=$new_c1*256+$new_c2;
        switch($new_i)
        {
          case   1025: $out_c='Ё'; break;
          case   1105: $out_c='ё'; break;
          case 0x00ab: $out_c='«'; break;
          case 0x00bb: $out_c='»'; break;
          default: $out_c=chr($new_i-848);
        }
        $r.=$out_c;
        $state=1;
        break;
    }
  }
  return $r;
}
?>
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
<?php
function win_utf8($in_text) {
    $output = "";
    $other[1025] = "Ё";
    $other[1105] = "ё";
    $other[1028] = "Є";
    $other[1108] = "є";
    $other[1030] = "I";
    /* $other[1110] = "i";*/
    $other[1031] = "Ї";
    $other[1111] = "ї";
    for ($i = 0; $i  191) {
        $output.="&amp;#".(ord($in_text{$i})+848).";";
    }else {
        if (array_search($in_text{$i}, $other)===false){
            $output.=$in_text{$i};
        }else {
            $output.="&amp;#".array_search($in_text{$i}, $other).";";
        }
    }
    return $output;
}
?>
на счет iconv() читал, кажется на хабре, что она некорректно конвертирует истроки и в каком-то случае она вообще возвращает строку без изменения кодировки. сейчас не могу найти исходник этого метода
1
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 09:11  [ТС]
Меня терзают смутные сомнения, а выполняется ли мое условие
PHP
1
if ($title ['encoding'] == 'CP1251')
. я не ошибся?
0
мастер топоров
 Аватар для Koran
917 / 742 / 101
Регистрация: 16.08.2009
Сообщений: 1,476
01.07.2011, 09:36
а вы сделайте дапм переменной - выведите её значение и посмотрите на неё
0
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 13:22  [ТС]
Не работает условие (( Выводит в виде: ���. Может посоветуете, как изменить условие?
0
мастер топоров
 Аватар для Koran
917 / 742 / 101
Регистрация: 16.08.2009
Сообщений: 1,476
01.07.2011, 13:43
Цитата Сообщение от VertuOzz Посмотреть сообщение
PHP
1
$title = getTextBetweenTags($content, "title");
тут вы получаете текст или массив?
по идее текст:
PHP
1
2
3
4
5
6
function getTextBetweenTags($string, $tagname)
 {
    $pattern = "/<$tagname>(.*?)<\/$tagname>/";
    preg_match($pattern, $string, $matches);
    return $matches[1];
 }
вообще-то кодировка указывается на в title, а в заголовках meta:
HTML5
1
2
3
<head>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
  ....
разберитесь как правильно получить кодировку, которую использует страница

кастати, нашел кажется почти то, что вам нужно (адаптируете под свою задачу) вот тут
0
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 13:55  [ТС]
Цитата Сообщение от Koran Посмотреть сообщение
вообще-то кодировка указывается на в title, а в заголовках meta:
Это я понимаю ). Я получаю title (в виде текста), проверяю его кодировку и , если кодировка cp1251, кодирую ее в utf-8. Вроде так?
0
 Аватар для andyarus
175 / 77 / 2
Регистрация: 19.04.2011
Сообщений: 322
01.07.2011, 13:56
PHP
1
2
3
4
5
6
7
8
$url = 'https://www.cyberforum.ru/';
$content = file_get_contents($url);
preg_match("#.*meta.*(?:charset=(?:\b|\"|\'|\s)(.{3,})(?:\"|\'|\s|>|;))#isU", $content, $a);
preg_match("#<title>(.*)</title>#isU", $content, $b);
$kodirovka = trim($a[1]);
$title = trim($b[1]);
strstr($kodirovka, '1251') ? $title = iconv($kodirovka, 'UTF-8', $title) : ''; 
echo $title;
0
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 13:57  [ТС]
И вот еще момент. функция
PHP
1
$title = iconv ("CP1251", "UTF-8", $title);
отлично кодирует, но если текст в utf8, выходят иероглифы...
0
 Аватар для andyarus
175 / 77 / 2
Регистрация: 19.04.2011
Сообщений: 322
01.07.2011, 14:11
бери то, что я те накатал, ставь +1 и радуйся
1
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 14:55  [ТС]
andyarus, спасибо тебе добрый человек
0
мастер топоров
 Аватар для Koran
917 / 742 / 101
Регистрация: 16.08.2009
Сообщений: 1,476
01.07.2011, 16:52
определение кодировки из полученного текста неблагодарное дело ибо оно опирается на статистический вес буквы
гораздо удобнее из заголовка взять charset и, опираясь на него, выяснить что за кодировка

обратите снимание что если в php.ini установлена кодировка windows-1251 или другая, то даже если вы заголовок поставите urf-8, кодировка будет та, которую установит php-машина. потому если случаются такие каверзы используйте set_ini(.., ..)

у меня такая проблема была
0
 Аватар для VertuOzz
11 / 11 / 2
Регистрация: 02.12.2010
Сообщений: 62
01.07.2011, 17:56  [ТС]
Koran, так вот это
PHP
1
preg_match("#.*meta.*(?:charset=(?:\b|\"|\'|\s)(.{3,})(?:\"|\'|\s|>|;))#isU", $content, $a);
вроде как и берет данные из charset? Или не так?
0
мастер топоров
 Аватар для Koran
917 / 742 / 101
Регистрация: 16.08.2009
Сообщений: 1,476
01.07.2011, 18:19
так да, берет. я же не говорил что не берет

Добавлено через 4 минуты
во, нашел заметку, о которой я говорил: http://habrahabr.ru/blogs/php/107945/
особенно порадовал код:
PHP
1
2
3
4
5
// ext/mbstring/libmbfl/mbfl/mbfl_ident.c:248
int mbfl_filt_ident_true(int c, mbfl_identify_filter *filter)
{
    return c;
}
1
0 / 0 / 0
Регистрация: 07.05.2012
Сообщений: 2
07.05.2012, 21:25
PHP
1
$output.="&amp;#".(ord($in_text{$i})+848).";";
неподскажите что означает +\- 848?спасибо заранее
0
 Аватар для Vovan-VE
13210 / 6599 / 1041
Регистрация: 10.01.2008
Сообщений: 15,069
08.05.2012, 07:18
В cp1251 русские буквы А-Яа-я (без буквы Ёё) занимают диапазон ASCII кодов 192-255 (0xC0-0xFF), а в юникоде - 1040-1104 (0x0410-0x044F). Разница как раз 848.

Буква Ёё отдыхает, я так понимаю. Кустарный способ.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
08.05.2012, 07:18
Помогаю со студенческими работами здесь

Перекодировка строки из cp1251 в UTF8
Доброго времени суток. У меня есть строка в cp1251, но мне нужно вывести в utf8. Как это лучше реализовать?

из utf8 в cp1251
Всем привет ! Собственно сразу вопрос - как троку перекодировать из utf8 в cp1251 и обратно ? Желательно стандартными классами ...

преобразования utf8 <-> cp1251
Какими функциями лучше всего воспользоваться для преобразований utf8 в cp1251 и обратно ?

Перевод из cp1251 в utf8
Как перевести программно на C# это: %CA%D0%C8% в читабельный текст?

Перекодировка DBF файла из cp1251 в UTF-8
Есть dbf файл (база БИК), он сохранен в cp1251, как данные из него перекодировать в UTF-8? сам файл базы бик:...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Новые блоги и статьи
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru