Форум программистов, компьютерный форум, киберфорум
Lazarus
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.59/32: Рейтинг темы: голосов - 32, средняя оценка - 4.59
 Аватар для taras atavin
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562

Парсинг строки, не могу получить киррилический символ

20.06.2011, 11:16. Показов 6850. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Парсинг строки, не могу получить киррилический символ по его номеру в строке.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
20.06.2011, 11:16
Ответы с готовыми решениями:

Получить символ из строки
Всем добрый день. Вопрошаю: Имеется строка типа StringBuffer. Как из нее получить отдельный элемент, чтобы была возможна следующая...

Как получить символ из строки?
Подскажите пожалуйста, у меня задание сравнить первую и последнюю букву слова, первую букву у меня получилось вывести, а вывести последнюю...

Получить указатель на символ строки string
надо получить указатель на i-ый символ строки string как это сделать? и еще если у меня будет указатель на i-ый символ строки string как...

6
2 / 2 / 1
Регистрация: 21.06.2011
Сообщений: 7
21.06.2011, 21:08
Это всё из-за кодировки UTF8. Там номер байта не есть номер символа в строке (да и кодировка не однобайтная). Можно примерно так:

Pascal
1
2
3
4
5
6
7
8
9
10
procedure TForm1.Button1Click(Sender: TObject);
var s,s1:String;
    sa:String;
begin
  setlength(s1,1); 
  s:='АБВГД'; //Строка в кодировке UTF8
  sa:=Utf8ToAnsi(s); //Строка в кодировке ANSI (на 1 символ 1 байт)
  s1:=sa[3]; //Теперь можно взять ANSI символ по номеру байта
  Application.MessageBox(pchar(AnsiToUtf8(s1)),'3-й символ:',0); //Если необходимо, преобразовали обратно
end;
1
 Аватар для taras atavin
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
22.06.2011, 06:47  [ТС]
Проблема не в номерах символа и байта, а в том, что если символ двухбайтный, то получить получается только его первый байт.

Добавлено через 46 секунд
Цитата Сообщение от alex333 Посмотреть сообщение
sa:=Utf8ToAnsi(s); //Строка в кодировке ANSI (на 1 символ 1 байт)
Пробовал, не помогает.

Добавлено через 19 минут
1. Какова максимальная длина кода символа UTF-8? Два байта, или больше? Сколько именно?
2. Дан первый байт. Как определить длину кода символа? Если эта подзадача будет решена, то номер байта я просто отсчитаю от начала строки.
3. Даны строка и номер первого байта. Как получить многобайтный символ?
0
2 / 2 / 1
Регистрация: 21.06.2011
Сообщений: 7
22.06.2011, 21:03
Пробовал, не помогает.
Что значит "не помогает"? У меня-то пример работает. MessageBox выдаёт мне "В", третий символ строки 'АБВГД'. Что не так?

Цитата:
"Символы, закодированные в UTF-8, могут быть длиной до шести байт, однако стандарт Unicode не определяет символов выше 0x10ffff, поэтому символы Unicode могут иметь максимальный размер в 4 байта в UTF-8." http://ru.wikipedia.org/wiki/UTF-8

Т.е. он переменной длины. По-моему, проще преобразовать в Ansi, сделать всё что нужно, а потом преобразовать назад (если необходимо). Хотя, конечно, дело вкуса.

Может я, конечно, просто вопрос не понял. Какова задача в целом? Что должен делать этот парсер (на простеньком примере: что на входе - пример, что на выходе - пример)?
1
 Аватар для taras atavin
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
23.06.2011, 07:05  [ТС]
Цитата Сообщение от alex333 Посмотреть сообщение
итата: "Символы, закодированные в UTF-8, могут быть длиной до шести байт, однако стандарт Unicode не определяет символов выше 0x10ffff, поэтому символы Unicode могут иметь максимальный размер в 4 байта в UTF-8.
Эйси. Есть первый байт. Уже можно опеределить, что символ четрёхбайтный, или ещё нет?
Цитата Сообщение от alex333 Посмотреть сообщение
Может я, конечно, просто вопрос не понял. Какова задача в целом? Что должен делать этот парсер (на простеньком примере: что на входе - пример, что на выходе - пример)?
Пока разбор регулятрных со своими обознначениями (например, большая русская Р со звёздочкой ("Р*")означает любые русские буквы на в произовльном количестве, протсо большая русская Р - одна кириллическая буква, "h" - шестнадцатеричная цифра, "h*" - шестнадцатеричное число, "L" - любая латинская буква, "L*" - любые латинские буквы в произвольном количестве, пробел означает сам себя...) и сравнение строки с этой регуляркой.

Добавлено через 25 минут
По ссылке смотрел. Так:
Delphi
1
2
3
4
5
procedure proc(s:WideString; i:integer); // i-номер байта
begin
if ord(s[i])<=127 then { однобайтный} else
if ord(s[i+1])<=7 then {двухбайтный} else
// четырёхбайтный
пойдёт?
Delphi
1
2
procedure proc(s:WideString; i:integer);
var c:widechar;
. Определено, что начинающийся с i-того символа код длинее одного байта и конкретная длина этого кода. Как прочитать этот символ в с? Преобразование в ansi прошу больше не передлагать.

Добавлено через 33 минуты
По тесту получаается, что большая русская Р имеет код 0xA0D0, а по таблице всё, что больше 0x07FF - длинее двух байт.

Добавлено через 5 минут
Delphi
1
2
3
var s:AnsiString;
begin
     s:=Utf8ToAnsi('Р*');
Первый символ явной константы - больша русская Р. s - те же 3 байта: 0xA0, 0xD0 и код звёздочки.

Добавлено через 12 минут
Цитата Сообщение от alex333 Посмотреть сообщение
Pascal
1
2
3
4
5
6
7
8
9
10
procedure TForm1.Button1Click(Sender: TObject);
var s,s1:String;
    sa:String;
begin
  setlength(s1,1); 
  s:='АБВГД'; //Строка в кодировке UTF8
  sa:=Utf8ToAnsi(s); //Строка в кодировке ANSI (на 1 символ 1 байт)
  s1:=sa[3]; //Теперь можно взять ANSI символ по номеру байта
  Application.MessageBox(pchar(AnsiToUtf8(s1)),'3-й символ:',0); //Если необходимо, преобразовали обратно
end;
Здесь sa тоже идентично s и занимает 10 байт, а бокс показал вопрос вместо буквы (символ с кодом 0xD0).
0
36 / 36 / 7
Регистрация: 08.01.2011
Сообщений: 137
23.06.2011, 07:22
Попробуйтие почитать тут: Работа со строками в Lazarus.
Может ничего нового и не подчерпнете, но многое встанет на свои места. Ну и про байты там тоже немного есть.
И, к стати, там и про конвертацию написано (был у вас такой пост), думаю и по этому вопросу вы получите там исчерпывающий ответ.
1
 Аватар для taras atavin
4226 / 1796 / 211
Регистрация: 24.11.2009
Сообщений: 27,562
23.06.2011, 08:56  [ТС]
UTF8Copy работает с номером и количеством байт и переворачивает порядок байт.

Добавлено через 10 минут
Оказалось, что не с того байта пустил. Но с номером и количеством байт.

Добавлено через 11 минут
Заработало с символами. Через безвайда.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
23.06.2011, 08:56
Помогаю со студенческими работами здесь

Как получить первый символ строки?
допустим у меня строка #3tkrnghrjnhlfng а мне нужен только первый символ как мне его получить?

Получить произвольный символ строки по индексу
Например имеется строка MyString = &quot;ABCDEF&quot; какой командой можно получить любой её символ,как например в Си MyString

Как получить первый символ строки?
Доброго времени суток. Уважаемые программисты помогите пожалуйста. Задача такая: Нужно при импортировании строк из текстового...

Как получить символ из строки типа String^
Какой функцией получить конкретный символ из строки типа String^? мне нужно получить следующий рабочий код: String^ str; ...

Можно ли удалив 1 символ из строки, получить палиндром?
Sample Input 1: abca Sample Output 1: YES


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определенном условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
Фиксация колонок в отчете СКД
Maks 14.04.2026
Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru