Форум программистов, компьютерный форум, киберфорум
Batch (CMD/BAT)
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.89/75: Рейтинг темы: голосов - 75, средняя оценка - 4.89
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
1

Перекодировка текста (сборник кодов для различных кодовых страниц)

24.01.2015, 22:34. Просмотров 15233. Ответов 16
Метки нет (Все метки)

Привет!

Решил подсобрать коды перекодировки текстов родными средствами Windows + добавить пару новых фишек -)

Итак,

UTF-16 -> 866 (DOS)

Bash
1
2
chcp 866
cmd /d /a /c type utf16.txt > 866_out.txt


UTF16 -> 1251 (ANSI)

Bash
1
2
chcp 1251
cmd /d /a /c type utf16.txt > 1251_out.txt


UTF8 -> 1251

Bash
1
2
3
4
5
chcp 65001
cmd /d /u /c type utf8.txt > .tmp
chcp 1251
type .tmp > 1251_out.txt
del .tmp


866 -> 1251


Если батник сохранять в кодировке 866

Bash
1
2
3
4
5
6
7
chcp 866
for %%? in ("") do chcp 1251 & cmd /d /a /c set /p=яю<NUL > .tmp
chcp 866
cmd /d /u /c type 866.txt >> .tmp
chcp 1251
cmd /d /a /c type .tmp > 1251_out.txt
del .tmp
Если батник сохранять в кодировке 1251

Bash
1
2
3
4
5
6
7
chcp 1251
cmd /d /a /c set /p=яю<NUL > .tmp
chcp 866
cmd /d /u /c type 866.txt >> .tmp
chcp 1251
cmd /d /a /c type .tmp > 1251_out.txt
del .tmp


1251 -> 866


Если батник сохранять в кодировке 866

Bash
1
2
3
4
5
6
chcp 866
for %%? in ("") do chcp 1251 & cmd /d /a /c set /p=по<NUL > .tmp
cmd /d /u /c type 1251.txt >> .tmp
chcp 866
cmd /d /a /c type .tmp > 866_out.txt
del .tmp
Если батник сохранять в кодировке 1251

Bash
1
2
3
4
5
6
chcp 1251
cmd /d /a /c set /p=яю<NUL > .tmp
cmd /d /u /c type 1251.txt >> .tmp
chcp 866
cmd /d /a /c type .tmp > 866_out.txt
del .tmp


Любая кодировка в любую

Bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
@set @x=0; /*
@echo off
call :Recode utf8.txt 1251_out.txt utf-8 windows-1251
pause
goto :eof
 
:Recode in.[исходный файл] in.[результирующий файл] in.[кодировка исходного файла] in.[кодировка результирующего файла]
  cscript.exe //nologo //e:jscript "%~f0" "%~1" "%~2" "%~3" "%~4"
Exit /B
 
*/with (new ActiveXObject('ADODB.Stream')) {
  Charset = WScript.Arguments(2);
  Open();
  LoadFromFile (WScript.Arguments(0));
  Text = ReadText();
  Close();
  Charset = WScript.Arguments(3);
  Open();
  WriteText (Text);
  SaveToFile (WScript.Arguments(1), 2);
  Close();
}
Названия доступных кодировок можно посмотреть в разделе реестра:
HKEY_CLASSES_ROOT\Mime\Database\Charset

либо в колонке .NET Name в этой статье.


Демо-набор есть в архиве.
Спасибо за внимание. Надеюсь, окажется Вам полезным.

Еще коды:
На языке JScript: 866>1251, 1251>866, 1251>koi8, koi8>1251 (от buggydancer)
Полезные BAT/CMD скрипты
10
Вложения
Тип файла: zip Codepages.zip (5.7 Кб, 102 просмотров)
QA
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
24.01.2015, 22:34
Ответы с готовыми решениями:

Переключение кодовых страниц в windows?
Некоторая программма принимает (вводит с клавиатуры) символы в обычной русской кодировке, после...

Переключение кодовых страниц в Windows?
Некоторая программма под виндами принимает (вводит с клавиатуры) символы в обычной русской...

Сколько различных кодовых слов может использовать Игорь
Помогите, пожалуйста, девушке, решить задачу по комбинаторике. Пересмотрела кучу решений подобных...

Перекодировка текста для вывода в окне
Здравствуйте. Помогите реализовать перекодировку текстового файла с помощью функций CharToOem() и...

16
ComSpec
3425 / 1966 / 632
Регистрация: 26.02.2014
Сообщений: 1,457
28.01.2015, 13:54 2
Мой вариант универсального (насколько это возможно для пакетного файла) перекодировщика.


Bash
1
2
3
:: OEM-866 to Win-1251
@chcp 866>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: OEM-866 to UTF-8
@chcp 866>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: Win-1251 to OEM-866
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-8 to OEM-866
@chcp 65001>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-8 to Win-1251
@chcp 65001>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to OEM-866
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to Win-1251
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to UTF-8
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)

В отличие от ранее предлагавшихся перекодировщиков, основанных на построчном разборе текста в цикле командой "for", данный код абсолютно устойчив к специальным символам, встречающимся в тексте, и полностью сохраняет форматирование текста, включая пустые строки. Код проверялся на всех символах английской и русской раскладки клавиатуры. Максимальная длина обрабатываемых строк может достигать 4091 символа.

Замечания и предложения приветствуются!
13
buggydancer
250 / 238 / 16
Регистрация: 31.12.2009
Сообщений: 324
23.04.2015, 19:55 3
Если в этом треде собираются:
Цитата Сообщение от Dragokas Посмотреть сообщение
коды перекодировки текстов родными средствами Windows
то может и JScript пусть полежит? - 4 перекодировочные функции (866>1251, 1251>866, 1251>koi8, koi8>1251), из объектов только "Scripting.FileSystemObject" - нужный для файлового ввода/вывода, перекодировка по-старинке, через временный массив (наподобие команды XLAT/XLATB) и индексный доступ
Кликните здесь для просмотра всего текста
Javascript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
var sKOI8="latin_бвчздеіцъйклмнопртуфхжигюыэящшьасБВЧЗДЕЈЦЪЙКЛМНОПРТУФХЖИГЮЫЭЯЩШЬАС";
var s866 ="latin_ЂЃ‚ѓ„…р†‡€‰Љ‹ЊЌЋЏђ‘’“”•–—˜™љ›њќћџ*ЎўЈ¤Ґс¦§Ё©Є«¬*®Їабвгдежзийклмноп";
var s1251="latin_АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя";
 
 
 
var objFS = new ActiveXObject("Scripting.FileSystemObject");
var strTAB = "koi_1251_tab.txt"
var OTF_ForWriting = 2;
 
if (!objFS.FileExists(strTAB))
    objFS.CreateTextFile(strTAB);
 
objTS = objFS.OpenTextFile(strTAB, OTF_ForWriting);
 
/*// таким образом делались перекодировочные массивы
for (var i = 0; i < sKOI.length; i++)
    objTS.WriteLine("\tarrA[" + sKOI.charCodeAt(i) + "] = " +
            s1251.charCodeAt(i) + "; // " +
            s1251.charAt(i));
 
objTS.WriteBlankLines(3);
 
for (var i = 0; i < s1251.length; i++)
    objTS.WriteLine("\tarrA[" + s1251.charCodeAt(i) + "] = " +
            sKOI.charCodeAt(i) + "; // " +
            sKOI.charAt(i));
*/
objTS.Write(    "s1251:\r\n\""          + s1251 + "\"\r\n\r\n" +
        "sKOI8:\r\n\""          + sKOI8 + "\"\r\n\r\n" +
        "cvtKOI8to1251(sKOI8):\r\n\""   + cvtKOI8to1251(sKOI8) + "\"\r\n\r\n" +
        "cvt1251toKOI8(s1251):\r\n\""   + cvt1251toKOI8(s1251) + "\"");
 
objTS.Close();
 
WScript.Quit();
 
 
 
 
function cvt866to1251(str866)
{
    var arrA = new Array(), str1251 = "";
 
    arrA[1026] = 1040; // А
    arrA[1027] = 1041; // Б
    arrA[8218] = 1042; // В
    arrA[1107] = 1043; // Г
    arrA[8222] = 1044; // Д
    arrA[8230] = 1045; // Е
    arrA[1088] = 1025; // Ё
    arrA[8224] = 1046; // Ж
    arrA[8225] = 1047; // З
    arrA[8364] = 1048; // И
    arrA[8240] = 1049; // Й
    arrA[1033] = 1050; // К
    arrA[8249] = 1051; // Л
    arrA[1034] = 1052; // М
    arrA[1036] = 1053; // Н
    arrA[1035] = 1054; // О
    arrA[1039] = 1055; // П
    arrA[1106] = 1056; // Р
    arrA[8216] = 1057; // С
    arrA[8217] = 1058; // Т
    arrA[8220] = 1059; // У
    arrA[8221] = 1060; // Ф
    arrA[8226] = 1061; // Х
    arrA[8211] = 1062; // Ц
    arrA[8212] = 1063; // Ч
    arrA[ 152] = 1064; // Ш
    arrA[8482] = 1065; // Щ
    arrA[1113] = 1066; // Ъ
    arrA[8250] = 1067; // Ы
    arrA[1114] = 1068; // Ь
    arrA[1116] = 1069; // Э
    arrA[1115] = 1070; // Ю
    arrA[1119] = 1071; // Я
    arrA[ 160] = 1072; // а
    arrA[1038] = 1073; // б
    arrA[1118] = 1074; // в
    arrA[1032] = 1075; // г
    arrA[ 164] = 1076; // д
    arrA[1168] = 1077; // е
    arrA[1089] = 1105; // ё
    arrA[ 166] = 1078; // ж
    arrA[ 167] = 1079; // з
    arrA[1025] = 1080; // и
    arrA[ 169] = 1081; // й
    arrA[1028] = 1082; // к
    arrA[ 171] = 1083; // л
    arrA[ 172] = 1084; // м
    arrA[ 173] = 1085; // н
    arrA[ 174] = 1086; // о
    arrA[1031] = 1087; // п
    arrA[1072] = 1088; // р
    arrA[1073] = 1089; // с
    arrA[1074] = 1090; // т
    arrA[1075] = 1091; // у
    arrA[1076] = 1092; // ф
    arrA[1077] = 1093; // х
    arrA[1078] = 1094; // ц
    arrA[1079] = 1095; // ч
    arrA[1080] = 1096; // ш
    arrA[1081] = 1097; // щ
    arrA[1082] = 1098; // ъ
    arrA[1083] = 1099; // ы
    arrA[1084] = 1100; // ь
    arrA[1085] = 1101; // э
    arrA[1086] = 1102; // ю
    arrA[1087] = 1103; // я
 
    for (var i = 0; i < str866.length; i++)
        if (arrA[str866.charCodeAt(i)] == undefined)
            str1251 += str866.charAt(i);
        else
            str1251 += String.fromCharCode(arrA[str866.charCodeAt(i)]);
 
    return (str1251);
}
 
 
 
 
function cvt1251to866(str1251)
{
    var arrA = new Array(), str866 = "";
 
    arrA[1040] = 1026; // Ђ
    arrA[1041] = 1027; // Ѓ
    arrA[1042] = 8218; // ‚
    arrA[1043] = 1107; // ѓ
    arrA[1044] = 8222; // „
    arrA[1045] = 8230; // …
    arrA[1025] = 1088; // р
    arrA[1046] = 8224; // †
    arrA[1047] = 8225; // ‡
    arrA[1048] = 8364; // €
    arrA[1049] = 8240; // ‰
    arrA[1050] = 1033; // Љ
    arrA[1051] = 8249; // ‹
    arrA[1052] = 1034; // Њ
    arrA[1053] = 1036; // Ќ
    arrA[1054] = 1035; // Ћ
    arrA[1055] = 1039; // Џ
    arrA[1056] = 1106; // ђ
    arrA[1057] = 8216; // ‘
    arrA[1058] = 8217; // ’
    arrA[1059] = 8220; // “
    arrA[1060] = 8221; // ”
    arrA[1061] = 8226; // •
    arrA[1062] = 8211; // –
    arrA[1063] = 8212; // —
    arrA[1064] =  152; // ˜
    arrA[1065] = 8482; // ™
    arrA[1066] = 1113; // љ
    arrA[1067] = 8250; // ›
    arrA[1068] = 1114; // њ
    arrA[1069] = 1116; // ќ
    arrA[1070] = 1115; // ћ
    arrA[1071] = 1119; // џ
    arrA[1072] =  160; // *
    arrA[1073] = 1038; // Ў
    arrA[1074] = 1118; // ў
    arrA[1075] = 1032; // Ј
    arrA[1076] =  164; // ¤
    arrA[1077] = 1168; // Ґ
    arrA[1105] = 1089; // с
    arrA[1078] =  166; // ¦
    arrA[1079] =  167; // §
    arrA[1080] = 1025; // Ё
    arrA[1081] =  169; // ©
    arrA[1082] = 1028; // Є
    arrA[1083] =  171; // «
    arrA[1084] =  172; // ¬
    arrA[1085] =  173; // *
    arrA[1086] =  174; // ®
    arrA[1087] = 1031; // Ї
    arrA[1088] = 1072; // а
    arrA[1089] = 1073; // б
    arrA[1090] = 1074; // в
    arrA[1091] = 1075; // г
    arrA[1092] = 1076; // д
    arrA[1093] = 1077; // е
    arrA[1094] = 1078; // ж
    arrA[1095] = 1079; // з
    arrA[1096] = 1080; // и
    arrA[1097] = 1081; // й
    arrA[1098] = 1082; // к
    arrA[1099] = 1083; // л
    arrA[1100] = 1084; // м
    arrA[1101] = 1085; // н
    arrA[1102] = 1086; // о
    arrA[1103] = 1087; // п
 
    for (var i = 0; i < str1251.length; i++)
        if (arrA[str1251.charCodeAt(i)] == undefined)
            str866 += str1251.charAt(i);
        else
            str866 += String.fromCharCode(arrA[str1251.charCodeAt(i)]);
 
    return (str866);
}
 
 
 
 
function cvtKOI8to1251(strKOI8)
{
    var arrA = new Array(), str1251 = "";
 
 
    arrA[1073] = 1040; // А
    arrA[1074] = 1041; // Б
    arrA[1095] = 1042; // В
    arrA[1079] = 1043; // Г
    arrA[1076] = 1044; // Д
    arrA[1077] = 1045; // Е
    arrA[1110] = 1025; // Ё
    arrA[1094] = 1046; // Ж
    arrA[1098] = 1047; // З
    arrA[1081] = 1048; // И
    arrA[1082] = 1049; // Й
    arrA[1083] = 1050; // К
    arrA[1084] = 1051; // Л
    arrA[1085] = 1052; // М
    arrA[1086] = 1053; // Н
    arrA[1087] = 1054; // О
    arrA[1088] = 1055; // П
    arrA[1090] = 1056; // Р
    arrA[1091] = 1057; // С
    arrA[1092] = 1058; // Т
    arrA[1093] = 1059; // У
    arrA[1078] = 1060; // Ф
    arrA[1080] = 1061; // Х
    arrA[1075] = 1062; // Ц
    arrA[1102] = 1063; // Ч
    arrA[1099] = 1064; // Ш
    arrA[1101] = 1065; // Щ
    arrA[1103] = 1066; // Ъ
    arrA[1097] = 1067; // Ы
    arrA[1096] = 1068; // Ь
    arrA[1100] = 1069; // Э
    arrA[1072] = 1070; // Ю
    arrA[1089] = 1071; // Я
    arrA[1041] = 1072; // а
    arrA[1042] = 1073; // б
    arrA[1063] = 1074; // в
    arrA[1047] = 1075; // г
    arrA[1044] = 1076; // д
    arrA[1045] = 1077; // е
    arrA[1032] = 1105; // ё
    arrA[1062] = 1078; // ж
    arrA[1066] = 1079; // з
    arrA[1049] = 1080; // и
    arrA[1050] = 1081; // й
    arrA[1051] = 1082; // к
    arrA[1052] = 1083; // л
    arrA[1053] = 1084; // м
    arrA[1054] = 1085; // н
    arrA[1055] = 1086; // о
    arrA[1056] = 1087; // п
    arrA[1058] = 1088; // р
    arrA[1059] = 1089; // с
    arrA[1060] = 1090; // т
    arrA[1061] = 1091; // у
    arrA[1046] = 1092; // ф
    arrA[1048] = 1093; // х
    arrA[1043] = 1094; // ц
    arrA[1070] = 1095; // ч
    arrA[1067] = 1096; // ш
    arrA[1069] = 1097; // щ
    arrA[1071] = 1098; // ъ
    arrA[1065] = 1099; // ы
    arrA[1064] = 1100; // ь
    arrA[1068] = 1101; // э
    arrA[1040] = 1102; // ю
    arrA[1057] = 1103; // я
 
    for (var i = 0; i < strKOI8.length; i++)
        if (arrA[strKOI8.charCodeAt(i)] == undefined)
            str1251 += strKOI8.charAt(i);
        else
            str1251 += String.fromCharCode(arrA[strKOI8.charCodeAt(i)]);
 
    return (str1251);
}
 
 
 
 
function cvt1251toKOI8(str1251)
{
    var arrA = new Array(), strKOI8 = "";
 
    arrA[1040] = 1073; // б
    arrA[1041] = 1074; // в
    arrA[1042] = 1095; // ч
    arrA[1043] = 1079; // з
    arrA[1044] = 1076; // д
    arrA[1045] = 1077; // е
    arrA[1025] = 1110; // і
    arrA[1046] = 1094; // ц
    arrA[1047] = 1098; // ъ
    arrA[1048] = 1081; // й
    arrA[1049] = 1082; // к
    arrA[1050] = 1083; // л
    arrA[1051] = 1084; // м
    arrA[1052] = 1085; // н
    arrA[1053] = 1086; // о
    arrA[1054] = 1087; // п
    arrA[1055] = 1088; // р
    arrA[1056] = 1090; // т
    arrA[1057] = 1091; // у
    arrA[1058] = 1092; // ф
    arrA[1059] = 1093; // х
    arrA[1060] = 1078; // ж
    arrA[1061] = 1080; // и
    arrA[1062] = 1075; // г
    arrA[1063] = 1102; // ю
    arrA[1064] = 1099; // ы
    arrA[1065] = 1101; // э
    arrA[1066] = 1103; // я
    arrA[1067] = 1097; // щ
    arrA[1068] = 1096; // ш
    arrA[1069] = 1100; // ь
    arrA[1070] = 1072; // а
    arrA[1071] = 1089; // с
    arrA[1072] = 1041; // Б
    arrA[1073] = 1042; // В
    arrA[1074] = 1063; // Ч
    arrA[1075] = 1047; // З
    arrA[1076] = 1044; // Д
    arrA[1077] = 1045; // Е
    arrA[1105] = 1032; // Ј
    arrA[1078] = 1062; // Ц
    arrA[1079] = 1066; // Ъ
    arrA[1080] = 1049; // Й
    arrA[1081] = 1050; // К
    arrA[1082] = 1051; // Л
    arrA[1083] = 1052; // М
    arrA[1084] = 1053; // Н
    arrA[1085] = 1054; // О
    arrA[1086] = 1055; // П
    arrA[1087] = 1056; // Р
    arrA[1088] = 1058; // Т
    arrA[1089] = 1059; // У
    arrA[1090] = 1060; // Ф
    arrA[1091] = 1061; // Х
    arrA[1092] = 1046; // Ж
    arrA[1093] = 1048; // И
    arrA[1094] = 1043; // Г
    arrA[1095] = 1070; // Ю
    arrA[1096] = 1067; // Ы
    arrA[1097] = 1069; // Э
    arrA[1098] = 1071; // Я
    arrA[1099] = 1065; // Щ
    arrA[1100] = 1064; // Ш
    arrA[1101] = 1068; // Ь
    arrA[1102] = 1040; // А
    arrA[1103] = 1057; // С
 
    for (var i = 0; i < str1251.length; i++)
        if (arrA[str1251.charCodeAt(i)] == undefined)
            strKOI8 += str1251.charAt(i);
        else
            strKOI8 += String.fromCharCode(arrA[str1251.charCodeAt(i)]);
 
    return (strKOI8);
}

866_1251_koi8.zip
4
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
25.11.2015, 18:27  [ТС] 4
Цитата Сообщение от ComSpec Посмотреть сообщение
Замечания и предложения приветствуются!
1251 -> UTF16
866 -> UTF16


Добавлено через 8 минут
+ вспомнил, что ты помогал в личку. Пусть здесь будет.

Задача
Нужно текст из файла сконвертировать из WIN-1251 в OEM-866 без использования доп. файлов.
Результат записать в переменную.
Windows Batch file
1
2
3
4
5
6
7
@echo off
 
>nul chcp 1251
<"example.txt" (for /f "delims=" %%i in ('more') do >nul chcp 866& set/a n+=1& call set x%%n%%=%%i)
set x
 
pause
Ни в коем случае нельзя chcp 1251 (т.е. весь вот этот код) помещать в блок скобок, если не включен режим отложенного раскрытия переменных.
2
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
09.10.2016, 23:07  [ТС] 5
Список кодовых страниц Chcp
0
komponent
0 / 0 / 0
Регистрация: 08.10.2013
Сообщений: 6
09.11.2016, 17:25 6
Windows Batch file
1
2
3
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"old.txt">"test.txt" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Не сработал, сгенерировался test.txt пустой
может потому-что old.txt весит 16ГБ ?

Добавлено через 5 часов 41 минуту
да так и есть, разбил на маленькие по 6 МБ работает очень долго, грузит проц 50%, проще открывать нотепадом++ и преобразовывать в utf-8 без BOM
0
volodin661
2595 / 1138 / 197
Регистрация: 10.12.2013
Сообщений: 3,837
11.11.2016, 07:44 7
тогда уж не notepad++, a vim, который поддерживает управление из ком. строки.

а по-взрослому - кроссплатформенный iconv
1
Ципихович Эндрю
1416 / 325 / 29
Регистрация: 10.04.2009
Сообщений: 5,240
09.05.2017, 12:56 8
здравствуйте я перепробовал все здесь предложенные коды, не получается перекодировать нужный файл, если его ручками открыть в Блокнот++ то видно что кодировка ANSI, перекодировываешь его вручную в utf-8 и всё гут, как бы это батником сделать спасибо, приложу файл для наглядности
:
0
Вложения
Тип файла: txt output.txt (1.6 Кб, 15 просмотров)
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
09.05.2017, 15:33  [ТС] 9
А не нужно перепробовать всё. В каждом примере конкретно написано для чего он. ANSI - это 1251.
В Вашем файле вообще смешанная кодировка, и ANSI, и UTF-8. Что и во что перекодировать непонятно.
Если берёте примеры от ComSpec, исходный файл должен называться in.file
0
Ципихович Эндрю
1416 / 325 / 29
Регистрация: 10.04.2009
Сообщений: 5,240
09.05.2017, 15:40 10
Цитата Сообщение от Dragokas Посмотреть сообщение
смешанная кодировка, и ANSI, и UTF-8
разве так бывает? по моему что-то одно

Добавлено через 4 минуты
пробую так:
Bash
1
2
3
4
5
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"C:\SmartIDReader\bin\output.txt">"C:\SmartIDReader\bin\1output.txt" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
::строку ГОР*. РњР&#152;Р*ГОР*РћР” ПОЛТАВСКОЙ ОБЛ. перекодировал в нижеследующую
::          Р“РћР*. РњР&#152;Р*ГОР*РћР” ПОЛТАВСКОЙ ОБЛ.
0
koros
1 / 1 / 1
Регистрация: 14.11.2014
Сообщений: 32
22.08.2017, 15:18 11
Цитата Сообщение от ComSpec Посмотреть сообщение
Максимальная длина обрабатываемых строк может достигать 4091 символа.
У меня длина строк может быть больше 4091, поэтому использовал UTF16 -> 1251 (ANSI) из первого поста:
Windows Batch file
1
cmd /d /a /c type utf16.txt > 1251_out.txt
Все работает на моих файлах, но хотелось бы узнать есть ли у данного способа ограничения?

Добавлено через 14 секунд
Цитата Сообщение от ComSpec Посмотреть сообщение
Максимальная длина обрабатываемых строк может достигать 4091 символа.
У меня длина строк может быть больше 4091, поэтому использовал UTF16 -> 1251 (ANSI) из первого поста:
Windows Batch file
1
cmd /d /a /c type utf16.txt > 1251_out.txt
Все работает на моих файлах, но хотелось бы узнать есть ли у данного способа ограничения?
0
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
22.08.2017, 15:40  [ТС] 12
Каких-либо ограничений замечено не было.
0
Oneduo
1 / 1 / 0
Регистрация: 08.10.2017
Сообщений: 37
11.10.2017, 18:37 13
Здравствуйте !
А как сделать чтобы переводились htm файлы с 1251 -> 1200 UTF16-LE и желательно на vb net

PureBasic
1
2
3
:: Win-1251 to UTF16-LE
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do [B][U]???????????[/U][/B]>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Добавлено через 15 секунд
Здравствуйте !
А как сделать чтобы переводились htm файлы с 1251 -> 1200 UTF16-LE и желательно на vb net

PureBasic
1
2
3
:: Win-1251 to UTF16-LE
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do [B][U]???????????[/U][/B]>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
0
Dragokas
Эксперт WindowsАвтор FAQ
17171 / 7224 / 866
Регистрация: 25.12.2011
Сообщений: 11,016
Записей в блоге: 16
11.10.2017, 20:58  [ТС] 14
Oneduo, например, открыть главную страницу форума и посмотреть, где обсуждается VB.Net.
1
volodin661
2595 / 1138 / 197
Регистрация: 10.12.2013
Сообщений: 3,837
09.12.2019, 06:16 15
Ну что тут сказать ...

ха-ха-ха.

Совершенно законный вопрос человека в теме "Перекодировка текста (сборник кодов для различных кодовых страниц)" по поводу весьма востребованной перекодировки файла в UTF-16LE, то есть, той целевой кодировки, которая напрочь отсутствует в данной теме.

И вот этот человек холодно послан в пешее путешествие Автором Чрезвычайно Важных Тем под одобрительное 'Спасибо' присутствующих.

Исправляю несправедливость.

ANSI2UNICODE.BAT
Windows Batch file
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
@@  REM ЭТА ЧАСТЬ НЕ РЕДАКТИРУЕТСЯ. ЗДЕСЬ МЫ ВЫТАСКИВАЕМ ИЗ НЕДР WINDOWS КОМПИЛЯТОР VB.NET И ЗАПУСКАЕМ ЕГО.
@@  REM СОХРАНИТЬ ДАННЫЙ ФАЙЛ МОЖНО В КОДИРОВКЕ UTF-8 ( предпочтительно ), ANSI (cp1251) ИЛИ OEM ( cp866 )
@@  REM Кодовую страницу во время работы данного скрипта выставляем принудительно в ANSI, потому что команда MORE при 65001 неработоспособна
@@  CHCP 1251 >NUL
@@  SETLOCAL
@@  FOR /F "tokens=3"   %%y IN ( 'REG QUERY  HKLM\SOFTWARE\Microsoft\.NETFramework /v InstallRoot') do @@ (
        SET InstallRoot=%%y
    )
@@  FOR /F              %%y IN ( 'DIR /S /B %InstallRoot%vbc.exe' ) do @@ (
        SET  VBCompiler=%%y
    )
@@  IF /I "%InstallRoot%" EQU "" @@ (
        ECHO:Could not find .NET InstallRoot.
        EXIT /B
    )
@@  IF NOT EXIST __%~n0.exe  (
        MORE +30 %~f0 > %~n0.vb
        ECHO File %~n0.vb created ...
        ECHO File %~n0.vb is being compiled ...
        %VBCompiler% /TARGET:exe /OUT:__%~n0 %~n0.vb
        IF EXIST __%~n0.exe @@ (
            ECHO Executable file __%~n0.exe created!!
            ECHO Running __%~n0.exe %*
            __%~n0.exe %*
        )
    ) ELSE @@ ( __%~n0.exe %* )
@@  ENDLOCAL    
@@  EXIT /B
   
REM НАЧИНАТЬ РЕДАКТИРОВАТЬ МОЖНО ОТСЮДА
 
imports System
imports System.IO
Module M
     
    Sub main ()
        'обработка аргументов командной строки'
        Dim args() As String = Environment.GetCommandLineArgs
        Dim filename As String
     
        if args.Length = 1 Then
            Usage( args(0) )
            Exit Sub
        else
            filename = args(1)
        end if
     
        Try
 
            File.WriteAllText( filename, File.ReadAllText( filename, Text.Encoding.Default), Text.Encoding.Unicode )
            Console.WriteLine( "Результат в файле " & filename )
     
        Catch e As Exception
            Console.WriteLine( e.Message )
       
        End Try
 
    End Sub
 
    Sub Usage ( thisApp as String )
        Console.ForegroundColor = ConsoleColor.Red
        Console.WriteLine( "Недостаточно параметров для запуска")
        Console.WriteLine( "Пример: " &  thisApp & " <ИмяФайла>" )
        Console.WriteLine( "Исходная кодировка этого файла должна совпадать с локалью ( cp1251 для русского Windows )" )  
        Console.WriteLine( "Целевая кодировка этого файла UTF-16LE" )  
        Console.ResetColor()
    End Sub
 
End Module

Windows Batch file
1
ansi2unicode file.txt
Добавлено через 9 минут
Что характерно, русские буквы в сообщении ( строки 61-65 ) будут ВСЕГДА корректно показаны
в консоли вне зависимости от кодировки текста в ansi2unicode.bat и вне зависимости от кодовой страницы консольного окна.
1
alpap
2987 / 1705 / 572
Регистрация: 26.04.2015
Сообщений: 5,649
09.12.2019, 23:08 16
volodin661, работает превосходно
Перекодировка текста (сборник кодов для различных кодовых страниц)

а если с 866 (убрать 4ю строку в bat или недостаточно?)
Перекодировка текста (сборник кодов для различных кодовых страниц)
0
volodin661
2595 / 1138 / 197
Регистрация: 10.12.2013
Сообщений: 3,837
09.12.2019, 23:15 17
Цитата Сообщение от alpap Посмотреть сообщение
а если с 866 (убрать 4-ю строку в bat или недостаточно?)
просто подстраховался на случай - вдруг шальным образом включена в консоли 65001.
0
09.12.2019, 23:15
Answers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
09.12.2019, 23:15

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

Сколько различных кодов Хаффмена существует для алфавита из k символов?
Сколько различных кодов Хаффмена существует для алфавита из k символов?

Утилита для создания QR кодов для текста из буфера обмена
Утилита генерирует QR код из текста в буфере обмена. Полезно когда открыть ту же ссылку что на ПК...

Перекодировка текста
Здравствуйте! Есть такая задача: написать программу-конвертер. Есть исходный текст, и нужно при...

Перекодировка текста
Приветствую. ;) На входе есть строка, содержащая символы такого вида: ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
17
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.