Форум программистов, компьютерный форум, киберфорум
Microsoft SQL Server
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.70/30: Рейтинг темы: голосов - 30, средняя оценка - 4.70
Кибернетик
 Аватар для СyberSpec
465 / 89 / 12
Регистрация: 10.04.2009
Сообщений: 424

Select ошибок-очепяток в данных

20.09.2011, 16:08. Показов 5739. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Приветствую.

Сначала опишу ситуацию.

Есть таблица (в ней есть и другие поля которые могут совпадать или нет, нас они не интересуют):

имяфамилияотчествогод рождения
ИванПупкинАлександрович1987
ИванПупкинАлександрович1987
ИванПупкинАлександровис1987

В третьей строчке опечатка, выделено жирным. Как ее можно найти? Желательно получить пару

кол-воимяфамилияотчествогод рождения
2ИванПупкинАлександрович1987
1ИванПупкинАлександровис1987


Я нагуглил что для поиска опечаток можно использовать "арифметическую разность строк"
Или как - то с помощью
T-SQL
1
Group by
Если кто то сталкивался буду благодарен)


***сорри если не туды запостил((

Добавлено через 45 минут
Нашел на хабре:
Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или Yandex. Например, такие алгоритмы используются для функций наподобие «Возможно вы имели в виду …» в тех же поисковых системах.

... методы и алгоритмы:
  • Расстояние Левенштейна
  • Расстояние Дамерау-Левенштейна
  • Алгоритм Bitap с модификациями от Wu и Manber
  • Алгоритм расширения выборки
  • Метод N-грамм
  • Хеширование по сигнатуре
  • BK-деревья
Можете помочь с реализацией алгоритма "Расстояние Дамерау-Левенштейна" на MS SQL?
Кто нибудь делал что-либо похожее?..

Добавлено через 16 минут
________________________________________ ________________________________________ __________
Ну, ок! с алгоритмом я сам разберусь, на SQL его переписывать глупо. Но вот с поиском строки-верной и строки-с_опечаткой можете помочь??
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.09.2011, 16:08
Ответы с готовыми решениями:

Генератор очепяток
Народ вопрос в следующем, есть слово в TEdit или слова в текстовом файле, необходимо на каждое слово сгенерировать опечатку (нажатие...

Изменение данных одного select при изменении другого select
нужно что бы выбирая одну группу менялись данные в "номере по журналу" не понимаю как это сделать помогите <?php ...

Перекидывание данных из одного <select>...</select> в другой
Yest dve korobki tipa &lt;select&gt;...&lt;/select&gt;: odna bitkom nabitaya dannimi s bazi dannih, a vtoraya sovershenno pustaya(poka dazhe bez pustih...

2
 Аватар для Devil_FoX
168 / 142 / 1
Регистрация: 01.04.2010
Сообщений: 474
20.09.2011, 17:14
Сам не пользовался и не проверял подобной системой но проверь функции системы Soundex()
Я прочитал про неё в книге "Библия пользователя. SQL Server 2005 Пола Нильсена"

С книги:
T-SQL
1
2
3
SELECT SOUNDEX('Nielsen') AS Nielsen, 
SOUNDEX('Nelson') AS NELSON, 
SOUNDEX('Neilson') AS NEILSON
Результат этого запроса будет следующим:
Nielsen NELSON NEILSON
N425 N425 N425

Кстати, если решите данную проблему как то по другому, то опишите, пожалуйста, как вы её решили. И как заменяли неправильные фамилии на правильные (если автоматом исправление было)
1
Кибернетик
 Аватар для СyberSpec
465 / 89 / 12
Регистрация: 10.04.2009
Сообщений: 424
20.09.2011, 21:38  [ТС]
T-SQL
1
2
SOUNDEX -- Soundex — один из алгоритмов сравнения двух строк по их звучанию. 
        --Он устанавливает одинаковый индекс для строк, имеющих схожее звучание в английском языке.
Удивительно Мне не подходит и все таки.
Цитата Сообщение от Devil_FoX Посмотреть сообщение
Кстати, если решите данную проблему как то по другому, то опишите, пожалуйста, как вы её решили. И как заменяли неправильные фамилии на правильные (если автоматом исправление было)
Обязательно, для этого и существуют форумы вроде этого.

Добавлено через 2 часа 30 минут
Придумал вот решение, если будут поправки в процессе реализации, подправлю.

Алгоритм поиска и замены опечаток в текстовых полях таблицы (Пример с полем "Фамилия"):
  1. Получаем список уникальных строк-эталонов. (я беру из другой таблицы, где есть эти же данные) вида:
    ФамилияИмяОтчествоГод. рожд.
  2. Берем 1-ю строку-эталон и делаем селект вида:
    T-SQL
    1
    
    Select [familiya] From [bad_table] Where [Name] = 'etalon_name' And [Otchestvo] = 'etalon_otchestvo' And [GodRogdeniya] = 'etalon_godrogdeniya'
  3. Из полученной выборки таблицы [bad_table] последовательно сравниваем значения [familiya] с строкой-эталоном по алгоритму "Расстояние Дамерау-Левенштейна", и если значения отличаются в 1 символ, то делаем Update этой записи.
  4. Сам алгоритм лучше реализовать в программе и переложить на нее обязанности вычисления, ибо записей много а сервер один
Описание алгоритма есть в википедии, а реализация на C# вот:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
public static Int32 DamerauLevenshteinDistance(String source, String target)
{
    if (String.IsNullOrEmpty(source))
    {
        if (String.IsNullOrEmpty(target))
        {
            return 0;
        }
        else
        {
            return target.Length;
        }
    }
    else if (String.IsNullOrEmpty(target))
    {
        return source.Length;
    } 
 
    Int32 m = source.Length;
    Int32 n = target.Length;
    Int32[,] H = new Int32[m + 2, n + 2];
 
    Int32 INF = m + n;
    H[0, 0] = INF;
    for (Int32 i = 0; i <= m; i++) { H[i + 1, 1] = i; H[i + 1, 0] = INF; }
    for (Int32 j = 0; j <= n; j++) { H[1, j + 1] = j; H[0, j + 1] = INF; }
 
    SortedDictionary<Char, Int32> sd = new SortedDictionary<Char, Int32>();
    foreach (Char Letter in (source + target))
    {
        if (!sd.ContainsKey(Letter))
            sd.Add(Letter, 0);
    }
 
    for (Int32 i = 1; i <= m; i++)
    {
        Int32 DB = 0;
        for (Int32 j = 1; j <= n; j++)
        {
            Int32 i1 = sd[target[j - 1]];
            Int32 j1 = DB;
 
            if (source[i - 1] == target[j - 1])
            {
                H[i + 1, j + 1] = H[i, j];
                DB = j;
            }
            else
            {
                H[i + 1, j + 1] = Math.Min(H[i, j], Math.Min(H[i + 1, j], H[i, j + 1])) + 1;
            }
 
            H[i + 1, j + 1] = Math.Min(H[i + 1, j + 1], H[i1, j1] + (i - i1 - 1) + 1 + (j - j1 - 1));
        }
 
        sd[source[i - 1]] = i;
    }
 
    return H[m + 1, n + 1];
}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
20.09.2011, 21:38
Помогаю со студенческими работами здесь

Выборка из БД и вставка данных в <select></select>
Есть 4 таблицы в БД, откуда берется инфа, потом по средствам форм, если быть точнее селекта, хочу сделать выборку с определенной базы, а...

SELECT данных в реляционной базе MySQL с выводом данных внешнего ключа
Например, есть MySQL и в ней бд - firma, в бд 3 таблицы - professions, fio, current_workers. В таблице &quot;professions&quot; - все...

Отключение контроля ошибок ввода данных
Здравствуйте! Допустим в программе требуется ввести целое число. Нужно сделать так чтобы если пользователь вводил дробное число или...

Ввод данных в запросы без ошибок
Здравствуйте. Использую Microsoft Access 2007 для создания базы данных. У меня это первая БД, так что опыта мало. Поэтому столкнулся со...

Получение данных из select
Есть такой селект: &lt;p&gt;Количество человек:&lt;/p&gt; &lt;p&gt;&lt;select name=&quot;option&quot; id=&quot;option227&quot; onchange=&quot;GetPrice();&quot; &gt; &lt;option...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru