Форум программистов, компьютерный форум, киберфорум
Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/8: Рейтинг темы: голосов - 8, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9

Нечеткий поиск в базах персональных данных

17.04.2018, 16:34. Показов 1925. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Не могу разобраться.
Как организуется нечеткий поиск в базах данных? когда предполагаем, что возможно компонент ФИО записан не в том поле ИМЯ в Отчестве и т.д. + допущены опечатки.


Допустим в БД 10000 записей.
Есть запись "Петров-ИваноФ СерКеевич Иван", в которой допущены 2 ошибки(замены букв) и 2 преобразования: 1) "Отчество" записано в поле "Имя", а имя в отчестве; 2) Двойная фамилия записана неправильно. правильно Иванов-Петров.

Оператор вводит в поисковую строку правильный вариант ФИО "Иванов-Петров Иван Сергеевич".

Как организуется поиск записей и устанавливается связь между этими данными? Какие методы нечеткого поиска лучше применять в такой ситуации.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
17.04.2018, 16:34
Ответы с готовыми решениями:

Исключения в базах данных
Подскажите пожалуйста, необходимо ответить на вопрос по SQL. Всё что искал - не подходит. Исключения и что. Создание исключения...

Даты в Базах Данных
Доброго времени суток. Вопросы ко всем кто использует Базы данных в своих программах. Они многим покажутся смешными.. но все же :-) ...

Зачем нужны связи в базах данных?
Здравствуйте, недавно работаю с базами данных и в процессе возник вопрос: зачем нужны связи в базах данных? У меня в базе 3 таблицы...

7
5972 / 4548 / 1094
Регистрация: 29.08.2013
Сообщений: 28,167
Записей в блоге: 3
17.04.2018, 17:35
поиск это когда ты ищешь нужные записи по критериям
нечеткий поиск это когда ты точно не знаешь что ищешь и используешь неточный поиск с помощью символов подстановки - %, * и прочих

а у тебя
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
2 ошибки(замены букв) и 2 преобразования:
это ошибки ввода, их стараются не допустить на этапе проектирования\программирования, или устраняют когда заметят
никакого специального поиска для этого нет
1
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9
17.04.2018, 17:44  [ТС]
Большое спасибо!
Будьте добры, помогите еще разобраться.

А все-таки, если изначально не удалось устранить эти ошибки. То как нам найти "Иванов-Петров Иван Сергеевич", если в БД оно записано неправильно , как "Петров-ИваноФ СерКеевич Иван"

МОжно еще одно уточнение.
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.), мы отдельно будем искать фамилию в поле ФАМИЛИЯ, пробегая все записи и устанавливая соответствие со строкой из поисковой строки. Затем аналогично будем искать фамилию в поле ИМЯ , ОТЧЕСТВО.

Добавлено через 1 минуту
Большое спасибо!
Будьте добры, помогите еще разобраться.

А все-таки, если изначально не удалось устранить эти ошибки. То как нам найти "Иванов-Петров Иван Сергеевич", если в БД оно записано неправильно , как "Петров-ИваноФ СерКеевич Иван"

МОжно еще одно уточнение.
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.), мы отдельно будем искать фамилию в поле ФАМИЛИЯ, пробегая все записи и устанавливая соответствие со строкой из поисковой строки. Затем аналогично будем искать фамилию в поле ИМЯ , ОТЧЕСТВО.
0
5972 / 4548 / 1094
Регистрация: 29.08.2013
Сообщений: 28,167
Записей в блоге: 3
17.04.2018, 17:54
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
если в БД оно записано неправильно
создать запросы для тестирования содержания
раз в неделю\в месяц прогонять тесты и просматривать данные

Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Правильно ли я поняла
так работают запросы
есть условие(или несколько) по которому отбираются данные, сначала отбираем по одному, потом по другому и тд
1
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9
17.04.2018, 17:59  [ТС]
Большое спасибо!

Получается, методы нечеткого поиска мы не применяем к БД?

Видела статью, где говорится о подобных базах данных, в которых допущены ошибки.
Чтобы идентифицировать субъекта персональных данных использовались последовательно два метода нечеткого поиска. Сначала метод n-грамм, затем алгоритм Вагнера-Фишера.
0
5972 / 4548 / 1094
Регистрация: 29.08.2013
Сообщений: 28,167
Записей в блоге: 3
17.04.2018, 18:12
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Получается, методы нечеткого поиска мы не применяем к БД?
почему?
мне кажется вам нужно отделить хранение и обработку данных в БД
храниться данные могут как угодно, а дальнейшая обработка может показать пользователю ошибки
0
Модератор
Эксперт MS Access
 Аватар для shanemac51
12231 / 5078 / 814
Регистрация: 07.08.2010
Сообщений: 14,937
Записей в блоге: 4
17.04.2018, 19:20
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.),
несколько лет назад приводила в божеский вид списки избирателей(46тысяч строк,ексель)

--ручная набивка, но набивали разные люди на разных компах

одно из имен Александр было набито в 46 вариантах --переврали все, что можно и нельзя
некоторые имена невозможно было даже угадать, что хотели набить Александр или Алексей

как правила
--создала списки всех фамилий/имен/отчеств(2 одинаковых столбика) и еще один служебный(первая буква и 4 согласные)
--отсортировала по служебному полю
--где ошибки были явные --во второй столбик поместила исправленное
--через ВПР получила исправленное версию основной таблицы
--сложные случаи правили уже вручную(сами заказчики)
0
476 / 239 / 114
Регистрация: 12.05.2016
Сообщений: 647
18.04.2018, 00:45
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Получается, методы нечеткого поиска мы не применяем к БД?
В некоторых СУБД есть такие методы.

Напрмер в Oracle есть функция UTL_MATCH.Jaro_Winkler_Similarity которая меня не раз выручала для таких задач
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2018, 00:45
Помогаю со студенческими работами здесь

Для тех кто хорошо разбирается в базах данных
У меня были задачи: 1 Привести отношение к 3 нормальной форме; 2 Создать базу данных.Пожалуйста если кто понимает проверьте и напишите...

О программамах или базах данных в которые можно вбивать ссылки
Здравствуйе. Есть пара вопросов. Поэтому решил спросить тут. У меня набралась куча ссылок на интернет ресуры. Хотелось бы эти все ссылки...

Как посчитать количество повторений записи в базах данных?
Подскажите пожалуйста как можно подсчитать количество повторений в столбце, а именно: речь идёт об отчёте QuickReport в котором должны быть...

Поиск в нескольких базах со вставкой в следующий запрос результатов из предыдущего
Доброго времени суток, комрады. Сначала сразу опишу проблему, чтобы было понятнее. Существует 3 базы (Oracle Database 11g Release...

Нечеткий поиск
Всем доброго времени суток! Ребят подскажите,пожалуйста, суть.Нужно организовать нечеткий поиск в БД.Какой нечеткий поиск реализовать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536 Одним из. . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru