|
50 / 49 / 3
Регистрация: 27.07.2019
Сообщений: 459
|
|
Выбор из большого списка текстовых строк только с разными регистрами09.06.2025, 14:50. Показов 3226. Ответов 28
Метки нет (Все метки)
Уважаемые форумчане, добрый день!
Очень нужна помощь в совсем непраздном вопросе (разрабы кассового ПО забыли про сканеры штрих-кодов, если они на cbd, то чувствительны к клавише caps lock и теперь надо найти все ошибки марок, которые не выбыли и-за замены регистра): есть много файлов со строками, в которых много повторяющихся данных, но, среди них иногда могут попадаться такие же, но с инвертированными регистрами, примерно так: 01046100177028712100CN8IGD5VTE8 01046100177028712100ZAE8TSVCZUY 01046100177028712100DB6J1634PCB 01046100177028712100ZAE9TFGJKNE 01046100177028712100ZAE9TFGJKNE 01046100177028712100ZAE9TFGJKNE 01046100177028712100zae9tfgjkne Вот как раз нижняя строка показывает то, что надо найти. Сама проблема, найти в файлах повторения с разными регистрами и как то их выкинуть в отдельный файл, либо удалить не повторяющиеся с различным регистром данные. Т.е. в итоге должно остаться: 01046100177028712100ZAE9TFGJKNE 01046100177028712100zae9tfgjkne Во вложенеии файл с маленькой выборкой, в нём я с ходу нашел (визуально): 01046100177028712100ZAE9TFGJKNE 01046100177028712100zae9tfgjkne 01046100177028712100ydzg14b69n2 01046100177028712100YDZG14B69N2 010366558500391321TWD8NC2MX5ND1 010366558500391321twd8nc2mx5nd1 05.txt
0
|
|
| 09.06.2025, 14:50 | |
|
Ответы с готовыми решениями:
28
|
|
Любознательный
7404 / 2251 / 360
Регистрация: 10.03.2016
Сообщений: 5,209
|
||||||||||||
| 14.06.2025, 11:06 | ||||||||||||
![]() Кстати, powershell-то тоже не лыком шит если использовать все доступные возможности (например, аналог множеств с уникальными значениями), он будет не менее скорострельным:
0
|
||||||||||||
|
6671 / 2263 / 346
Регистрация: 10.12.2013
Сообщений: 7,826
|
|||||||||||||||||||||||
| 15.06.2025, 12:53 | |||||||||||||||||||||||
|
Маленькая утилита sqlite3 против мегатонн кода powershell + .Net. И кто тут пушка ? Добавлено через 1 час 12 минут Генератор миллиона строк обсуждаемого вида: gen.1e6.lines.pl
======================================== =============== установка perl
0
|
|||||||||||||||||||||||
|
Любознательный
7404 / 2251 / 360
Регистрация: 10.03.2016
Сообщений: 5,209
|
|||||||||||||
| 15.06.2025, 13:23 | |||||||||||||
|
А и да, типа: .Net - мальчик-с-пальчик, что ли? ![]() Не в этом же дело... SQL для таких задач надо изучать ещё, потом скачать из неведомого леса-чего-то-там-скомпилированного именно то, что требуется. А ещё, не всегда есть возможность устанавливать утилиты по соображениям безопасности... ну, да ладно, это вообще к делу не относится, тема совсем другого разговора. Да и здесь - это же оффтоп... Давай проверять, в одинаковых условиях, у меня сейчас под рукой ноут, настрогал файлик из 9 лямов строк (для надежности) Проверяем: ProductName : SQLite ProductVersion : 3.50.1 Powershell : 7.5.0
0
|
|||||||||||||
|
6671 / 2263 / 346
Регистрация: 10.12.2013
Сообщений: 7,826
|
|
| 16.06.2025, 13:20 | |
|
powershell 7.4.7
картина, как уже говорил, обратная, то есть, 5:0 в пользу аргентины: на файле в миллион строк, подготовленным с помощью скрипта perl выше, powershell 30sec, sqlite 6 sec. RAM 8Gb Сейчас поставлю 7.5, если ямайка улучшится, значит они доработали-таки cmdlet group-object Добавлено через 5 минут PS: следует заменить в SQL on conflict replace на on conflict ignore, слегка быстрее будет (не теряется время на перезапись дубликатов)
0
|
|
|
3449 / 1110 / 494
Регистрация: 29.05.2016
Сообщений: 4,566
|
|||||||||||
| 16.06.2025, 16:34 | |||||||||||
|
farmsnab, добрый! На всякий случай ещё вариант:
P.S. Для очень больших объёмов данных (как, например, 9 млн. строк у YuS_2) можно использовать такой вариант:
2
|
|||||||||||
|
Любознательный
7404 / 2251 / 360
Регистрация: 10.03.2016
Сообщений: 5,209
|
|||||||
| 16.06.2025, 19:17 | |||||||
|
Комп немного пошустрее, чем тот ноут, но файл с данными тот же (9млн. строк, наструганных копированием исходных данных плюс добавлено несколько измененных разнорегистровых копий):
ЗЫ памяти 16Гб, что на ноуте, что на этом компе... файл: 05_full.zip
0
|
|||||||
|
|
||||||
| 16.06.2025, 20:08 | ||||||
Добавлено через 4 минуты Думаю для оптимального результата важна статистика самих данных, количество различающихся строк например.
0
|
||||||
|
3449 / 1110 / 494
Регистрация: 29.05.2016
Сообщений: 4,566
|
|||||||||||||
| 17.06.2025, 11:50 | |||||||||||||
2
|
|||||||||||||
|
Любознательный
7404 / 2251 / 360
Регистрация: 10.03.2016
Сообщений: 5,209
|
||
| 17.06.2025, 19:57 | ||
|
Но да, это самый быстрый вариант, у меня TotalMilliseconds : 774,4806
0
|
||
| 17.06.2025, 19:57 | |
|
Помогаю со студенческими работами здесь
29
Для всех файлов, кроме текстовых, установить атрибут "Только для чтения", а для текстовых — атрибут "Архивный"
Поменять IP-адрес и порт на взятые из списка в текстовом файле и удалить их из этого списка
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|