Форум программистов, компьютерный форум, киберфорум
Наши страницы
Batch (CMD/BAT)
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.70/53: Рейтинг темы: голосов - 53, средняя оценка - 4.70
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
1

Перекодировка текста (сборник кодов для различных кодовых страниц)

24.01.2015, 22:34. Просмотров 10282. Ответов 13
Метки нет (Все метки)

Привет!

Решил подсобрать коды перекодировки текстов родными средствами Windows + добавить пару новых фишек -)

Итак,

UTF-16 -> 866 (DOS)

Bash
1
2
chcp 866
cmd /d /a /c type utf16.txt > 866_out.txt


UTF16 -> 1251 (ANSI)

Bash
1
2
chcp 1251
cmd /d /a /c type utf16.txt > 1251_out.txt


UTF8 -> 1251

Bash
1
2
3
4
5
chcp 65001
cmd /d /u /c type utf8.txt > .tmp
chcp 1251
type .tmp > 1251_out.txt
del .tmp


866 -> 1251


Если батник сохранять в кодировке 866

Bash
1
2
3
4
5
6
7
chcp 866
for %%? in ("") do chcp 1251 & cmd /d /a /c set /p=яю<NUL > .tmp
chcp 866
cmd /d /u /c type 866.txt >> .tmp
chcp 1251
cmd /d /a /c type .tmp > 1251_out.txt
del .tmp
Если батник сохранять в кодировке 1251

Bash
1
2
3
4
5
6
7
chcp 1251
cmd /d /a /c set /p=яю<NUL > .tmp
chcp 866
cmd /d /u /c type 866.txt >> .tmp
chcp 1251
cmd /d /a /c type .tmp > 1251_out.txt
del .tmp


1251 -> 866


Если батник сохранять в кодировке 866

Bash
1
2
3
4
5
6
chcp 866
for %%? in ("") do chcp 1251 & cmd /d /a /c set /p=по<NUL > .tmp
cmd /d /u /c type 1251.txt >> .tmp
chcp 866
cmd /d /a /c type .tmp > 866_out.txt
del .tmp
Если батник сохранять в кодировке 1251

Bash
1
2
3
4
5
6
chcp 1251
cmd /d /a /c set /p=яю<NUL > .tmp
cmd /d /u /c type 1251.txt >> .tmp
chcp 866
cmd /d /a /c type .tmp > 866_out.txt
del .tmp


Любая кодировка в любую

Bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
@set @x=0; /*
@echo off
call :Recode utf8.txt 1251_out.txt utf-8 windows-1251
pause
goto :eof
 
:Recode in.[исходный файл] in.[результирующий файл] in.[кодировка исходного файла] in.[кодировка результирующего файла]
  cscript.exe //nologo //e:jscript "%~f0" "%~1" "%~2" "%~3" "%~4"
Exit /B
 
*/with (new ActiveXObject('ADODB.Stream')) {
  Charset = WScript.Arguments(2);
  Open();
  LoadFromFile (WScript.Arguments(0));
  Text = ReadText();
  Close();
  Charset = WScript.Arguments(3);
  Open();
  WriteText (Text);
  SaveToFile (WScript.Arguments(1), 2);
  Close();
}
Названия доступных кодировок можно посмотреть в разделе реестра:
HKEY_CLASSES_ROOT\Mime\Database\Charset

либо в колонке .NET Name в этой статье.


Демо-набор есть в архиве.
Спасибо за внимание. Надеюсь, окажется Вам полезным.

Еще коды:
На языке JScript: 866>1251, 1251>866, 1251>koi8, koi8>1251 (от buggydancer)
Полезные BAT/CMD скрипты
10
Вложения
Тип файла: zip Codepages.zip (5.7 Кб, 85 просмотров)
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
24.01.2015, 22:34
Ответы с готовыми решениями:

Переключение кодовых страниц в windows?
Некоторая программма принимает (вводит с клавиатуры) символы в обычной русской...

Переключение кодовых страниц в Windows?
Некоторая программма под виндами принимает (вводит с клавиатуры) символы в...

Перекодировка текста для вывода в окне
Здравствуйте. Помогите реализовать перекодировку текстового файла с помощью...

Перекодировка текста
Здравствуйте! Есть такая задача: написать программу-конвертер. Есть исходный...

Перекодировка текста
Здравствуйте! Есть такая задача: написать программу-конвертер. Есть исходный...

13
ComSpec
3407 / 1951 / 628
Регистрация: 26.02.2014
Сообщений: 1,457
28.01.2015, 13:54 2
Мой вариант универсального (насколько это возможно для пакетного файла) перекодировщика.


Bash
1
2
3
:: OEM-866 to Win-1251
@chcp 866>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: OEM-866 to UTF-8
@chcp 866>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: Win-1251 to OEM-866
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-8 to OEM-866
@chcp 65001>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-8 to Win-1251
@chcp 65001>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to OEM-866
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 866>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to Win-1251
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 1251>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Bash
1
2
3
:: UTF-16 to UTF-8
:: Не зависит от какой-нибудь из трёх (866, 1251, 65001) кодовых страниц, продекларированной на момент исполнения кода.
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)

В отличие от ранее предлагавшихся перекодировщиков, основанных на построчном разборе текста в цикле командой "for", данный код абсолютно устойчив к специальным символам, встречающимся в тексте, и полностью сохраняет форматирование текста, включая пустые строки. Код проверялся на всех символах английской и русской раскладки клавиатуры. Максимальная длина обрабатываемых строк может достигать 4091 символа.

Замечания и предложения приветствуются!
11
buggydancer
250 / 238 / 16
Регистрация: 31.12.2009
Сообщений: 324
23.04.2015, 19:55 3
Если в этом треде собираются:
Цитата Сообщение от Dragokas Посмотреть сообщение
коды перекодировки текстов родными средствами Windows
то может и JScript пусть полежит? - 4 перекодировочные функции (866>1251, 1251>866, 1251>koi8, koi8>1251), из объектов только "Scripting.FileSystemObject" - нужный для файлового ввода/вывода, перекодировка по-старинке, через временный массив (наподобие команды XLAT/XLATB) и индексный доступ
Кликните здесь для просмотра всего текста
Javascript
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
var sKOI8="latin_бвчздеіцъйклмнопртуфхжигюыэящшьасБВЧЗДЕЈЦЪЙКЛМНОПРТУФХЖИГЮЫЭЯЩШЬАС";
var s866 ="latin_ЂЃ‚ѓ„…р†‡€‰Љ‹ЊЌЋЏђ‘’“”•–—Лњ™љ›њќћџ*ЎўЈ¤Ґс¦§Ё©Є«¬*®Їабвгдежзийклмноп";
var s1251="latin_АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя";
 
 
 
var objFS = new ActiveXObject("Scripting.FileSystemObject");
var strTAB = "koi_1251_tab.txt"
var OTF_ForWriting = 2;
 
if (!objFS.FileExists(strTAB))
    objFS.CreateTextFile(strTAB);
 
objTS = objFS.OpenTextFile(strTAB, OTF_ForWriting);
 
/*// таким образом делались перекодировочные массивы
for (var i = 0; i < sKOI.length; i++)
    objTS.WriteLine("\tarrA[" + sKOI.charCodeAt(i) + "] = " +
            s1251.charCodeAt(i) + "; // " +
            s1251.charAt(i));
 
objTS.WriteBlankLines(3);
 
for (var i = 0; i < s1251.length; i++)
    objTS.WriteLine("\tarrA[" + s1251.charCodeAt(i) + "] = " +
            sKOI.charCodeAt(i) + "; // " +
            sKOI.charAt(i));
*/
objTS.Write(    "s1251:\r\n\""          + s1251 + "\"\r\n\r\n" +
        "sKOI8:\r\n\""          + sKOI8 + "\"\r\n\r\n" +
        "cvtKOI8to1251(sKOI8):\r\n\""   + cvtKOI8to1251(sKOI8) + "\"\r\n\r\n" +
        "cvt1251toKOI8(s1251):\r\n\""   + cvt1251toKOI8(s1251) + "\"");
 
objTS.Close();
 
WScript.Quit();
 
 
 
 
function cvt866to1251(str866)
{
    var arrA = new Array(), str1251 = "";
 
    arrA[1026] = 1040; // А
    arrA[1027] = 1041; // Б
    arrA[8218] = 1042; // В
    arrA[1107] = 1043; // Г
    arrA[8222] = 1044; // Д
    arrA[8230] = 1045; // Е
    arrA[1088] = 1025; // Ё
    arrA[8224] = 1046; // Ж
    arrA[8225] = 1047; // З
    arrA[8364] = 1048; // И
    arrA[8240] = 1049; // Й
    arrA[1033] = 1050; // К
    arrA[8249] = 1051; // Л
    arrA[1034] = 1052; // М
    arrA[1036] = 1053; // Н
    arrA[1035] = 1054; // О
    arrA[1039] = 1055; // П
    arrA[1106] = 1056; // Р
    arrA[8216] = 1057; // С
    arrA[8217] = 1058; // Т
    arrA[8220] = 1059; // У
    arrA[8221] = 1060; // Ф
    arrA[8226] = 1061; // Х
    arrA[8211] = 1062; // Ц
    arrA[8212] = 1063; // Ч
    arrA[ 152] = 1064; // Ш
    arrA[8482] = 1065; // Щ
    arrA[1113] = 1066; // Ъ
    arrA[8250] = 1067; // Ы
    arrA[1114] = 1068; // Ь
    arrA[1116] = 1069; // Э
    arrA[1115] = 1070; // Ю
    arrA[1119] = 1071; // Я
    arrA[ 160] = 1072; // а
    arrA[1038] = 1073; // б
    arrA[1118] = 1074; // в
    arrA[1032] = 1075; // г
    arrA[ 164] = 1076; // д
    arrA[1168] = 1077; // е
    arrA[1089] = 1105; // ё
    arrA[ 166] = 1078; // ж
    arrA[ 167] = 1079; // з
    arrA[1025] = 1080; // и
    arrA[ 169] = 1081; // й
    arrA[1028] = 1082; // к
    arrA[ 171] = 1083; // л
    arrA[ 172] = 1084; // м
    arrA[ 173] = 1085; // н
    arrA[ 174] = 1086; // о
    arrA[1031] = 1087; // п
    arrA[1072] = 1088; // р
    arrA[1073] = 1089; // с
    arrA[1074] = 1090; // т
    arrA[1075] = 1091; // у
    arrA[1076] = 1092; // ф
    arrA[1077] = 1093; // х
    arrA[1078] = 1094; // ц
    arrA[1079] = 1095; // ч
    arrA[1080] = 1096; // ш
    arrA[1081] = 1097; // щ
    arrA[1082] = 1098; // ъ
    arrA[1083] = 1099; // ы
    arrA[1084] = 1100; // ь
    arrA[1085] = 1101; // э
    arrA[1086] = 1102; // ю
    arrA[1087] = 1103; // я
 
    for (var i = 0; i < str866.length; i++)
        if (arrA[str866.charCodeAt(i)] == undefined)
            str1251 += str866.charAt(i);
        else
            str1251 += String.fromCharCode(arrA[str866.charCodeAt(i)]);
 
    return (str1251);
}
 
 
 
 
function cvt1251to866(str1251)
{
    var arrA = new Array(), str866 = "";
 
    arrA[1040] = 1026; // Ђ
    arrA[1041] = 1027; // Ѓ
    arrA[1042] = 8218; // ‚
    arrA[1043] = 1107; // ѓ
    arrA[1044] = 8222; // „
    arrA[1045] = 8230; // …
    arrA[1025] = 1088; // р
    arrA[1046] = 8224; // †
    arrA[1047] = 8225; // ‡
    arrA[1048] = 8364; // €
    arrA[1049] = 8240; // ‰
    arrA[1050] = 1033; // Љ
    arrA[1051] = 8249; // ‹
    arrA[1052] = 1034; // Њ
    arrA[1053] = 1036; // Ќ
    arrA[1054] = 1035; // Ћ
    arrA[1055] = 1039; // Џ
    arrA[1056] = 1106; // ђ
    arrA[1057] = 8216; // ‘
    arrA[1058] = 8217; // ’
    arrA[1059] = 8220; // “
    arrA[1060] = 8221; // ”
    arrA[1061] = 8226; // •
    arrA[1062] = 8211; // –
    arrA[1063] = 8212; // —
    arrA[1064] =  152; // Лњ
    arrA[1065] = 8482; // ™
    arrA[1066] = 1113; // љ
    arrA[1067] = 8250; // ›
    arrA[1068] = 1114; // њ
    arrA[1069] = 1116; // ќ
    arrA[1070] = 1115; // ћ
    arrA[1071] = 1119; // џ
    arrA[1072] =  160; // *
    arrA[1073] = 1038; // Ў
    arrA[1074] = 1118; // ў
    arrA[1075] = 1032; // Ј
    arrA[1076] =  164; // ¤
    arrA[1077] = 1168; // Ґ
    arrA[1105] = 1089; // с
    arrA[1078] =  166; // ¦
    arrA[1079] =  167; // §
    arrA[1080] = 1025; // Ё
    arrA[1081] =  169; // ©
    arrA[1082] = 1028; // Є
    arrA[1083] =  171; // «
    arrA[1084] =  172; // ¬
    arrA[1085] =  173; // *
    arrA[1086] =  174; // ®
    arrA[1087] = 1031; // Ї
    arrA[1088] = 1072; // а
    arrA[1089] = 1073; // б
    arrA[1090] = 1074; // в
    arrA[1091] = 1075; // г
    arrA[1092] = 1076; // д
    arrA[1093] = 1077; // е
    arrA[1094] = 1078; // ж
    arrA[1095] = 1079; // з
    arrA[1096] = 1080; // и
    arrA[1097] = 1081; // й
    arrA[1098] = 1082; // к
    arrA[1099] = 1083; // л
    arrA[1100] = 1084; // м
    arrA[1101] = 1085; // н
    arrA[1102] = 1086; // о
    arrA[1103] = 1087; // п
 
    for (var i = 0; i < str1251.length; i++)
        if (arrA[str1251.charCodeAt(i)] == undefined)
            str866 += str1251.charAt(i);
        else
            str866 += String.fromCharCode(arrA[str1251.charCodeAt(i)]);
 
    return (str866);
}
 
 
 
 
function cvtKOI8to1251(strKOI8)
{
    var arrA = new Array(), str1251 = "";
 
 
    arrA[1073] = 1040; // А
    arrA[1074] = 1041; // Б
    arrA[1095] = 1042; // В
    arrA[1079] = 1043; // Г
    arrA[1076] = 1044; // Д
    arrA[1077] = 1045; // Е
    arrA[1110] = 1025; // Ё
    arrA[1094] = 1046; // Ж
    arrA[1098] = 1047; // З
    arrA[1081] = 1048; // И
    arrA[1082] = 1049; // Й
    arrA[1083] = 1050; // К
    arrA[1084] = 1051; // Л
    arrA[1085] = 1052; // М
    arrA[1086] = 1053; // Н
    arrA[1087] = 1054; // О
    arrA[1088] = 1055; // П
    arrA[1090] = 1056; // Р
    arrA[1091] = 1057; // С
    arrA[1092] = 1058; // Т
    arrA[1093] = 1059; // У
    arrA[1078] = 1060; // Ф
    arrA[1080] = 1061; // Х
    arrA[1075] = 1062; // Ц
    arrA[1102] = 1063; // Ч
    arrA[1099] = 1064; // Ш
    arrA[1101] = 1065; // Щ
    arrA[1103] = 1066; // Ъ
    arrA[1097] = 1067; // Ы
    arrA[1096] = 1068; // Ь
    arrA[1100] = 1069; // Э
    arrA[1072] = 1070; // Ю
    arrA[1089] = 1071; // Я
    arrA[1041] = 1072; // а
    arrA[1042] = 1073; // б
    arrA[1063] = 1074; // в
    arrA[1047] = 1075; // г
    arrA[1044] = 1076; // д
    arrA[1045] = 1077; // е
    arrA[1032] = 1105; // ё
    arrA[1062] = 1078; // ж
    arrA[1066] = 1079; // з
    arrA[1049] = 1080; // и
    arrA[1050] = 1081; // й
    arrA[1051] = 1082; // к
    arrA[1052] = 1083; // л
    arrA[1053] = 1084; // м
    arrA[1054] = 1085; // н
    arrA[1055] = 1086; // о
    arrA[1056] = 1087; // п
    arrA[1058] = 1088; // р
    arrA[1059] = 1089; // с
    arrA[1060] = 1090; // т
    arrA[1061] = 1091; // у
    arrA[1046] = 1092; // ф
    arrA[1048] = 1093; // х
    arrA[1043] = 1094; // ц
    arrA[1070] = 1095; // ч
    arrA[1067] = 1096; // ш
    arrA[1069] = 1097; // щ
    arrA[1071] = 1098; // ъ
    arrA[1065] = 1099; // ы
    arrA[1064] = 1100; // ь
    arrA[1068] = 1101; // э
    arrA[1040] = 1102; // ю
    arrA[1057] = 1103; // я
 
    for (var i = 0; i < strKOI8.length; i++)
        if (arrA[strKOI8.charCodeAt(i)] == undefined)
            str1251 += strKOI8.charAt(i);
        else
            str1251 += String.fromCharCode(arrA[strKOI8.charCodeAt(i)]);
 
    return (str1251);
}
 
 
 
 
function cvt1251toKOI8(str1251)
{
    var arrA = new Array(), strKOI8 = "";
 
    arrA[1040] = 1073; // б
    arrA[1041] = 1074; // в
    arrA[1042] = 1095; // ч
    arrA[1043] = 1079; // з
    arrA[1044] = 1076; // д
    arrA[1045] = 1077; // е
    arrA[1025] = 1110; // і
    arrA[1046] = 1094; // ц
    arrA[1047] = 1098; // ъ
    arrA[1048] = 1081; // й
    arrA[1049] = 1082; // к
    arrA[1050] = 1083; // л
    arrA[1051] = 1084; // м
    arrA[1052] = 1085; // н
    arrA[1053] = 1086; // о
    arrA[1054] = 1087; // п
    arrA[1055] = 1088; // р
    arrA[1056] = 1090; // т
    arrA[1057] = 1091; // у
    arrA[1058] = 1092; // ф
    arrA[1059] = 1093; // х
    arrA[1060] = 1078; // ж
    arrA[1061] = 1080; // и
    arrA[1062] = 1075; // г
    arrA[1063] = 1102; // ю
    arrA[1064] = 1099; // ы
    arrA[1065] = 1101; // э
    arrA[1066] = 1103; // я
    arrA[1067] = 1097; // щ
    arrA[1068] = 1096; // ш
    arrA[1069] = 1100; // ь
    arrA[1070] = 1072; // а
    arrA[1071] = 1089; // с
    arrA[1072] = 1041; // Б
    arrA[1073] = 1042; // В
    arrA[1074] = 1063; // Ч
    arrA[1075] = 1047; // З
    arrA[1076] = 1044; // Д
    arrA[1077] = 1045; // Е
    arrA[1105] = 1032; // Ј
    arrA[1078] = 1062; // Ц
    arrA[1079] = 1066; // Ъ
    arrA[1080] = 1049; // Й
    arrA[1081] = 1050; // К
    arrA[1082] = 1051; // Л
    arrA[1083] = 1052; // М
    arrA[1084] = 1053; // Н
    arrA[1085] = 1054; // О
    arrA[1086] = 1055; // П
    arrA[1087] = 1056; // Р
    arrA[1088] = 1058; // Т
    arrA[1089] = 1059; // У
    arrA[1090] = 1060; // Ф
    arrA[1091] = 1061; // Х
    arrA[1092] = 1046; // Ж
    arrA[1093] = 1048; // И
    arrA[1094] = 1043; // Г
    arrA[1095] = 1070; // Ю
    arrA[1096] = 1067; // Ы
    arrA[1097] = 1069; // Э
    arrA[1098] = 1071; // Я
    arrA[1099] = 1065; // Щ
    arrA[1100] = 1064; // Ш
    arrA[1101] = 1068; // Ь
    arrA[1102] = 1040; // А
    arrA[1103] = 1057; // С
 
    for (var i = 0; i < str1251.length; i++)
        if (arrA[str1251.charCodeAt(i)] == undefined)
            strKOI8 += str1251.charAt(i);
        else
            strKOI8 += String.fromCharCode(arrA[str1251.charCodeAt(i)]);
 
    return (strKOI8);
}

866_1251_koi8.zip
4
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
25.11.2015, 18:27  [ТС] 4
Цитата Сообщение от ComSpec Посмотреть сообщение
Замечания и предложения приветствуются!
1251 -> UTF16
866 -> UTF16


Добавлено через 8 минут
+ вспомнил, что ты помогал в личку. Пусть здесь будет.

Задача
Нужно текст из файла сконвертировать из WIN-1251 в OEM-866 без использования доп. файлов.
Результат записать в переменную.
Windows Batch file
1
2
3
4
5
6
7
@echo off
 
>nul chcp 1251
<"example.txt" (for /f "delims=" %%i in ('more') do >nul chcp 866& set/a n+=1& call set x%%n%%=%%i)
set x
 
pause
Ни в коем случае нельзя chcp 1251 (т.е. весь вот этот код) помещать в блок скобок, если не включен режим отложенного раскрытия переменных.
2
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
09.10.2016, 23:07  [ТС] 5
Список кодовых страниц Chcp
0
komponent
0 / 0 / 0
Регистрация: 08.10.2013
Сообщений: 6
09.11.2016, 17:25 6
Windows Batch file
1
2
3
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"old.txt">"test.txt" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Не сработал, сгенерировался test.txt пустой
может потому-что old.txt весит 16ГБ ?

Добавлено через 5 часов 41 минуту
да так и есть, разбил на маленькие по 6 МБ работает очень долго, грузит проц 50%, проще открывать нотепадом++ и преобразовывать в utf-8 без BOM
0
volodin661
1865 / 923 / 154
Регистрация: 10.12.2013
Сообщений: 3,097
11.11.2016, 07:44 7
тогда уж не notepad++, a vim, который поддерживает управление из ком. строки.

а по-взрослому - кроссплатформенный iconv
1
Ципихович Эндрю
1411 / 321 / 28
Регистрация: 10.04.2009
Сообщений: 5,040
09.05.2017, 12:56 8
здравствуйте я перепробовал все здесь предложенные коды, не получается перекодировать нужный файл, если его ручками открыть в Блокнот++ то видно что кодировка ANSI, перекодировываешь его вручную в utf-8 и всё гут, как бы это батником сделать спасибо, приложу файл для наглядности
:
0
Вложения
Тип файла: txt output.txt (1.6 Кб, 11 просмотров)
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
09.05.2017, 15:33  [ТС] 9
А не нужно перепробовать всё. В каждом примере конкретно написано для чего он. ANSI - это 1251.
В Вашем файле вообще смешанная кодировка, и ANSI, и UTF-8. Что и во что перекодировать непонятно.
Если берёте примеры от ComSpec, исходный файл должен называться in.file
0
Ципихович Эндрю
1411 / 321 / 28
Регистрация: 10.04.2009
Сообщений: 5,040
09.05.2017, 15:40 10
Цитата Сообщение от Dragokas Посмотреть сообщение
смешанная кодировка, и ANSI, и UTF-8
разве так бывает? по моему что-то одно

Добавлено через 4 минуты
пробую так:
Bash
1
2
3
4
5
:: Win-1251 to UTF-8
@chcp 1251>nul
@<"C:\SmartIDReader\bin\output.txt">"C:\SmartIDReader\bin\1output.txt" (for /f "delims=" %%i in ('find/n /v ""') do @chcp 65001>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
::строку ГОР*. РњР&#152;Р*ГОР*РћР” ПОЛТАВСКОЙ ОБЛ. перекодировал в нижеследующую
::          Р“РћР*. РњР&#152;Р*ГОР*РћР” ПОЛТАВСКОЙ ОБЛ.
0
koros
1 / 1 / 1
Регистрация: 14.11.2014
Сообщений: 29
22.08.2017, 15:18 11
Цитата Сообщение от ComSpec Посмотреть сообщение
Максимальная длина обрабатываемых строк может достигать 4091 символа.
У меня длина строк может быть больше 4091, поэтому использовал UTF16 -> 1251 (ANSI) из первого поста:
Windows Batch file
1
cmd /d /a /c type utf16.txt > 1251_out.txt
Все работает на моих файлах, но хотелось бы узнать есть ли у данного способа ограничения?

Добавлено через 14 секунд
Цитата Сообщение от ComSpec Посмотреть сообщение
Максимальная длина обрабатываемых строк может достигать 4091 символа.
У меня длина строк может быть больше 4091, поэтому использовал UTF16 -> 1251 (ANSI) из первого поста:
Windows Batch file
1
cmd /d /a /c type utf16.txt > 1251_out.txt
Все работает на моих файлах, но хотелось бы узнать есть ли у данного способа ограничения?
0
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
22.08.2017, 15:40  [ТС] 12
Каких-либо ограничений замечено не было.
0
Oneduo
0 / 0 / 0
Регистрация: 08.10.2017
Сообщений: 26
11.10.2017, 18:37 13
Здравствуйте !
А как сделать чтобы переводились htm файлы с 1251 -> 1200 UTF16-LE и желательно на vb net

PureBasic
1
2
3
:: Win-1251 to UTF16-LE
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do [B][U]???????????[/U][/B]>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
Добавлено через 15 секунд
Здравствуйте !
А как сделать чтобы переводились htm файлы с 1251 -> 1200 UTF16-LE и желательно на vb net

PureBasic
1
2
3
:: Win-1251 to UTF16-LE
@chcp 1251>nul
@<"in.file">"out.file" (for /f "delims=" %%i in ('find/n /v ""') do [B][U]???????????[/U][/B]>nul& set x=%%i& cmd/v/c echo[!x:*]^^=!)
0
Dragokas
Эксперт WindowsАвтор FAQ
17031 / 7089 / 857
Регистрация: 25.12.2011
Сообщений: 10,913
Записей в блоге: 16
11.10.2017, 20:58  [ТС] 14
Oneduo, например, открыть главную страницу форума и посмотреть, где обсуждается VB.Net.
1
11.10.2017, 20:58
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
11.10.2017, 20:58

Перекодировка текста
Приветствую. ;) На входе есть строка, содержащая символы такого вида: ...

Перекодировка текста в Word
Помогите пожалуйста разобраться. Нужно создать макрос что бы он перекодировал...

Перекодировка текста в Unicode
В программе получаю через сокетное соединение сообщение содержащие русский тект...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2018, vBulletin Solutions, Inc.
Рейтинг@Mail.ru