Форум программистов, компьютерный форум, киберфорум
C/С++ под Linux
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.89/47: Рейтинг темы: голосов - 47, средняя оценка - 4.89
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149

Linux кириллица в файлах

26.08.2020, 01:14. Показов 9770. Ответов 24
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
здравствуйте
вопрос: как работать с файлами в линукс, если в них присутствует кириллица?
если открываю используя fstream и считываю getline то на месте кириллических символов символы с отрицательными кодами
если открываю используя wfstream и считываю также getline, то на месте первого кириллического символа завершающий символ '\0'
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
26.08.2020, 01:14
Ответы с готовыми решениями:

Подсчитать количество вхождений буквы (кириллица) в строку (кириллица)
Суть такая: по требованию программы ввести строку символов (обыкновенный текст, кириллица(!!!)) и посчитать количество вхождений, если...

Qt 5 и кириллица в .ini файлах
Привет, есть к примеру такой .ini файл: EXIT=Выход Читаю .ini файл так: QString...

Кириллица в файлах
Работал с файламив в рhp - возникли проблемы с русской кодировкой - пусть дан некий файл - somefile.txt - в кодировке utf-8 без bom,...

24
Почетный модератор
7393 / 2639 / 281
Регистрация: 29.07.2006
Сообщений: 13,696
26.08.2020, 01:19
Цитата Сообщение от Fatinho Посмотреть сообщение
если в них присутствует кириллица?
В какой кодировке?
0
 Аватар для COKPOWEHEU
4082 / 2680 / 432
Регистрация: 09.09.2017
Сообщений: 11,900
26.08.2020, 10:13
Цитата Сообщение от Fatinho Посмотреть сообщение
если открываю используя fstream и считываю getline то на месте кириллических символов символы с отрицательными кодами
Откуда в беззнаковом символе будет отрицательный код?
Скорее всего, вы читаете в обычном UTF-8, где кириллический символ кодируется двумя последовательными байтами. Скажем, буква 'А' имеет код 0xD090, буква 'Ф' - 0xD0A4.
0
 Аватар для Annemesski
2670 / 1333 / 479
Регистрация: 08.11.2016
Сообщений: 3,679
26.08.2020, 12:16
Цитата Сообщение от COKPOWEHEU Посмотреть сообщение
Откуда в беззнаковом символе будет отрицательный код?
символ беззнаковый, а вот тип char по умолчанию может быть как signed так и unsigned зависит от компилятора. MSVC, например, по умолчанию задает для типа char тип signed char, но при указании компилятору опции /J меняет поведение и ставит по умолчанию тип unsigned char
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
26.08.2020, 18:14  [ТС]
Цитата Сообщение от Vourhey Посмотреть сообщение
В какой кодировке?
Цитата Сообщение от COKPOWEHEU Посмотреть сообщение
Скорее всего, вы читаете в обычном UTF-8
Да кодировка получается UTF8
Получается как с этим работать, как мне получить массив символов, что бы кириллические символы там были нормальными?
0
 Аватар для COKPOWEHEU
4082 / 2680 / 432
Регистрация: 09.09.2017
Сообщений: 11,900
27.08.2020, 09:40
Так и работать, в чем проблема-то?
Опишите что вы хотите сделать и что у вас не получается.
Вот пример работы с файлом, и имя кириллическое, и содержимое. Все работает.
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
$ cat Файл.txt 
ыволптитлывмтуытмштишмлытвамотилопртмтлоарипмолыривелгмывмиирлыиел
$ cat main.c 
#include <stdio.h>
 
int main(){
  FILE *pf = fopen("Файл.txt", "rt");
  if(pf == NULL){fprintf(stderr, "Can not open file\n"); return 1;}
  char buf[100];
  fgets(buf, 99, pf);
  fclose(pf);
  printf("[%s]\n", buf);
}
$ gcc main.c 
$ ./a.out 
[ыволптитлывмтуытмштишмлытвамотилопртмтлоарипмолыр]
$
0
Почетный модератор
7393 / 2639 / 281
Регистрация: 29.07.2006
Сообщений: 13,696
27.08.2020, 10:47
Цитата Сообщение от Fatinho Посмотреть сообщение
Да кодировка получается UTF8
Тогда бы все работало )
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
$ echo "привет" > text.txt
 
$ cat text.txt
привет
 
$ ./a.out
привет
 
$ cat main.cpp
#include <iostream>
#include <fstream>
 
int main()
{
    std::ifstream in("text.txt");
    std::string s;
    in>>s;
    std::cout<<s<<std::endl;
}
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
27.08.2020, 12:22  [ТС]
Так все работает
Тогда проблема в следующем: в иде, в режиме дебага, если посмотреть содержимое строки , то на месте кириллических символов отрицательные коды
0
Эксперт .NET
 Аватар для Rius
13042 / 7609 / 1663
Регистрация: 25.05.2015
Сообщений: 23,150
Записей в блоге: 14
27.08.2020, 12:26
Fatinho, значит IDE не умеет показывать utf-8 из массива char.
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
27.08.2020, 12:31  [ТС]
И ещё кириллические символы занимют два позиции в массиве .
Как с этим быть?
0
Эксперт .NET
 Аватар для Rius
13042 / 7609 / 1663
Регистрация: 25.05.2015
Сообщений: 23,150
Записей в блоге: 14
27.08.2020, 12:37
Как? Смириться.
𓀀 например, вообще 4 байта занимает.
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
27.08.2020, 12:39  [ТС]
Просто тогда уже неудобно считать длину строки
Модно сконвертировать в wchar_t что бы и Анг и русск символы были по 1 позиции в массиве?
0
Эксперт .NET
 Аватар для Rius
13042 / 7609 / 1663
Регистрация: 25.05.2015
Сообщений: 23,150
Записей в блоге: 14
27.08.2020, 12:42
strlen работает также, число char возвращает. В чём неудобство?
0
 Аватар для COKPOWEHEU
4082 / 2680 / 432
Регистрация: 09.09.2017
Сообщений: 11,900
27.08.2020, 12:55
Еще раз предлагаю просто описать задачу, которую пытаетесь решить.
Если вам нужно просто хранить строки, вводить и выводить их без существенной обработки используйте UTF-8 и не парьтесь.
Если нужна обработка вроде подсчета размера, копирование-вставка в середину и т.п. (не самый частый класс задач) то можно попробовать в wchar_t.
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
27.08.2020, 13:36  [ТС]
Цитата Сообщение от Rius Посмотреть сообщение
strlen работает также, число char возвращает. В чём неудобство?
Неудобство в том, что например строка "one два three". Я одидаю что strlen вернет 12, но возвращается 15.
Цитата Сообщение от COKPOWEHEU Посмотреть сообщение
Еще раз предлагаю просто описать задачу, которую пытаетесь решить.
Если вам нужно просто хранить строки, вводить и выводить их без существенной обработки используйте UTF-8 и не парьтесь.
Если нужна обработка вроде подсчета размера, копирование-вставка в середину и т.п. (не самый частый класс задач) то можно попробовать в wchar_t.
Да, как раз требуется обработка. Тогда нужно конвертировать в wchar_t?
0
 Аватар для COKPOWEHEU
4082 / 2680 / 432
Регистрация: 09.09.2017
Сообщений: 11,900
27.08.2020, 13:50
Цитата Сообщение от Fatinho Посмотреть сообщение
Да, как раз требуется обработка. Тогда нужно конвертировать в wchar_t?
Зависит от того, какая обработка. Возможно, хватит utf-8 и простейших самописных функций обработки. Скажем, пройтись по каждой букве UTF-8 (для strlen'а, например) недолго и вручную.
А для совсем серьезной обработки (хотя бы приведение к верхнему/нижнему регистру) простого wchar_t не хватит, нужна будет дополнительная обработка. Как и с составными символам, в которые входят диактрические модификаторы: с ними даже не все стандартные утилиты работают правильно.
0
Эксперт .NET
 Аватар для Rius
13042 / 7609 / 1663
Регистрация: 25.05.2015
Сообщений: 23,150
Записей в блоге: 14
27.08.2020, 13:50
Fatinho, а может в UnicodeString сразу? Зачем изобретать велосипед.
0
3 / 2 / 2
Регистрация: 14.12.2009
Сообщений: 149
27.08.2020, 14:03  [ТС]
Цитата Сообщение от Rius Посмотреть сообщение
Fatinho, а может в UnicodeString сразу? Зачем изобретать велосипед.
В том и дело я не знаю. Если бы знал, я бы не задавал тут такие вопросы.
Мне нужно считать файл, содержимое которого вперемешку латинские и кириллические символы, в массив символов и обрабатывать его так же как я бы обрабатывал его будь это просто массив латинских симвлов. То есть пользоваться такими функциями как strcpy, strncpy, strcat, strcspn и т.д. Чтобы 1 элемент массива, был бы одним символом
0
Эксперт .NET
 Аватар для Rius
13042 / 7609 / 1663
Регистрация: 25.05.2015
Сообщений: 23,150
Записей в блоге: 14
27.08.2020, 14:08
Fatinho, ну значит пройдите по ссылке и посмотрите, есть ли там все нужные вам функции для работы со строками.
Если есть, юзайте либу ICU. Она специально для юникода.
0
 Аватар для COKPOWEHEU
4082 / 2680 / 432
Регистрация: 09.09.2017
Сообщений: 11,900
27.08.2020, 20:21
Цитата Сообщение от Fatinho Посмотреть сообщение
Чтобы 1 элемент массива, был бы одним символом
зачем?
Цитата Сообщение от Fatinho Посмотреть сообщение
обрабатывать его так же как я бы обрабатывал его будь это просто массив латинских симвлов.
Так обрабатывайте, кто вам мешает. Именно поэтому UTF-8 удобнее UTF-16 и подобных, что во многом совместим с ASCII. И именно поэтому в Linux проблем с переходом к Юникоду почти не было, тогда как в Windows они до сих пор портят жизнь.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
27.08.2020, 20:21
Помогаю со студенческими работами здесь

Кириллица в bat-файлах
Помогите, пожалуйста: имеется батник следующего вида: net user Администратор /active:yes как сделать, чтобы корректно работала...

Кириллица в Linux
Всем привет. Пишу по учебе сетевое приложение на Linux, что-то типо эхо-сервера с прослушиванием сокетов. Проблема такая - что делать с...

Есть 2 файла. В файлах числа, найти самое большое число в обоих файлах
С++ Есть два файла В обоих файлах записаны слова Найти самое большое число в обоих файлах

Какая СУБД хранит данные в файлах с расширением .dat и индексы в файлах .k01, k02 и т.д.?
Какая СУБД хранит данные в файлах с расширением .dat и индексы в файлах .k01, k02 и т.д.? Есть ли возможность подключить эти таблицы в MS...

[Mono] Подскажите ide c# под linux чтобы компилировался файл для linux
Подскажите ide c# под linux чтобы компилировался файл для linux не как в monodevelop


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru