С Новым годом! Форум программистов, компьютерный форум, киберфорум
Базы данных
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/8: Рейтинг темы: голосов - 8, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9

Нечеткий поиск в базах персональных данных

17.04.2018, 16:34. Показов 1898. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Не могу разобраться.
Как организуется нечеткий поиск в базах данных? когда предполагаем, что возможно компонент ФИО записан не в том поле ИМЯ в Отчестве и т.д. + допущены опечатки.


Допустим в БД 10000 записей.
Есть запись "Петров-ИваноФ СерКеевич Иван", в которой допущены 2 ошибки(замены букв) и 2 преобразования: 1) "Отчество" записано в поле "Имя", а имя в отчестве; 2) Двойная фамилия записана неправильно. правильно Иванов-Петров.

Оператор вводит в поисковую строку правильный вариант ФИО "Иванов-Петров Иван Сергеевич".

Как организуется поиск записей и устанавливается связь между этими данными? Какие методы нечеткого поиска лучше применять в такой ситуации.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
17.04.2018, 16:34
Ответы с готовыми решениями:

Исключения в базах данных
Подскажите пожалуйста, необходимо ответить на вопрос по SQL. Всё что искал - не подходит. Исключения и что. Создание исключения...

Даты в Базах Данных
Доброго времени суток. Вопросы ко всем кто использует Базы данных в своих программах. Они многим покажутся смешными.. но все же :-) ...

Зачем нужны связи в базах данных?
Здравствуйте, недавно работаю с базами данных и в процессе возник вопрос: зачем нужны связи в базах данных? У меня в базе 3 таблицы...

7
5958 / 4534 / 1094
Регистрация: 29.08.2013
Сообщений: 28,141
Записей в блоге: 3
17.04.2018, 17:35
поиск это когда ты ищешь нужные записи по критериям
нечеткий поиск это когда ты точно не знаешь что ищешь и используешь неточный поиск с помощью символов подстановки - %, * и прочих

а у тебя
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
2 ошибки(замены букв) и 2 преобразования:
это ошибки ввода, их стараются не допустить на этапе проектирования\программирования, или устраняют когда заметят
никакого специального поиска для этого нет
1
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9
17.04.2018, 17:44  [ТС]
Большое спасибо!
Будьте добры, помогите еще разобраться.

А все-таки, если изначально не удалось устранить эти ошибки. То как нам найти "Иванов-Петров Иван Сергеевич", если в БД оно записано неправильно , как "Петров-ИваноФ СерКеевич Иван"

МОжно еще одно уточнение.
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.), мы отдельно будем искать фамилию в поле ФАМИЛИЯ, пробегая все записи и устанавливая соответствие со строкой из поисковой строки. Затем аналогично будем искать фамилию в поле ИМЯ , ОТЧЕСТВО.

Добавлено через 1 минуту
Большое спасибо!
Будьте добры, помогите еще разобраться.

А все-таки, если изначально не удалось устранить эти ошибки. То как нам найти "Иванов-Петров Иван Сергеевич", если в БД оно записано неправильно , как "Петров-ИваноФ СерКеевич Иван"

МОжно еще одно уточнение.
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.), мы отдельно будем искать фамилию в поле ФАМИЛИЯ, пробегая все записи и устанавливая соответствие со строкой из поисковой строки. Затем аналогично будем искать фамилию в поле ИМЯ , ОТЧЕСТВО.
0
5958 / 4534 / 1094
Регистрация: 29.08.2013
Сообщений: 28,141
Записей в блоге: 3
17.04.2018, 17:54
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
если в БД оно записано неправильно
создать запросы для тестирования содержания
раз в неделю\в месяц прогонять тесты и просматривать данные

Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Правильно ли я поняла
так работают запросы
есть условие(или несколько) по которому отбираются данные, сначала отбираем по одному, потом по другому и тд
1
0 / 0 / 0
Регистрация: 29.04.2017
Сообщений: 9
17.04.2018, 17:59  [ТС]
Большое спасибо!

Получается, методы нечеткого поиска мы не применяем к БД?

Видела статью, где говорится о подобных базах данных, в которых допущены ошибки.
Чтобы идентифицировать субъекта персональных данных использовались последовательно два метода нечеткого поиска. Сначала метод n-грамм, затем алгоритм Вагнера-Фишера.
0
5958 / 4534 / 1094
Регистрация: 29.08.2013
Сообщений: 28,141
Записей в блоге: 3
17.04.2018, 18:12
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Получается, методы нечеткого поиска мы не применяем к БД?
почему?
мне кажется вам нужно отделить хранение и обработку данных в БД
храниться данные могут как угодно, а дальнейшая обработка может показать пользователю ошибки
0
Модератор
Эксперт MS Access
 Аватар для shanemac51
12231 / 5078 / 814
Регистрация: 07.08.2010
Сообщений: 14,932
Записей в блоге: 4
17.04.2018, 19:20
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Правильно ли я поняла, что при поиске ФИО в базе персональных данных (с учетом того, что мы допускаем, что компоненты ФИО были поставлены неправильно фамилия вместо имени и т.д.),
несколько лет назад приводила в божеский вид списки избирателей(46тысяч строк,ексель)

--ручная набивка, но набивали разные люди на разных компах

одно из имен Александр было набито в 46 вариантах --переврали все, что можно и нельзя
некоторые имена невозможно было даже угадать, что хотели набить Александр или Алексей

как правила
--создала списки всех фамилий/имен/отчеств(2 одинаковых столбика) и еще один служебный(первая буква и 4 согласные)
--отсортировала по служебному полю
--где ошибки были явные --во второй столбик поместила исправленное
--через ВПР получила исправленное версию основной таблицы
--сложные случаи правили уже вручную(сами заказчики)
0
476 / 239 / 114
Регистрация: 12.05.2016
Сообщений: 647
18.04.2018, 00:45
Цитата Сообщение от Надежда Баутина Посмотреть сообщение
Получается, методы нечеткого поиска мы не применяем к БД?
В некоторых СУБД есть такие методы.

Напрмер в Oracle есть функция UTL_MATCH.Jaro_Winkler_Similarity которая меня не раз выручала для таких задач
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2018, 00:45
Помогаю со студенческими работами здесь

Для тех кто хорошо разбирается в базах данных
У меня были задачи: 1 Привести отношение к 3 нормальной форме; 2 Создать базу данных.Пожалуйста если кто понимает проверьте и напишите...

О программамах или базах данных в которые можно вбивать ссылки
Здравствуйе. Есть пара вопросов. Поэтому решил спросить тут. У меня набралась куча ссылок на интернет ресуры. Хотелось бы эти все ссылки...

Как посчитать количество повторений записи в базах данных?
Подскажите пожалуйста как можно подсчитать количество повторений в столбце, а именно: речь идёт об отчёте QuickReport в котором должны быть...

Поиск в нескольких базах со вставкой в следующий запрос результатов из предыдущего
Доброго времени суток, комрады. Сначала сразу опишу проблему, чтобы было понятнее. Существует 3 базы (Oracle Database 11g Release...

Нечеткий поиск
Всем доброго времени суток! Ребят подскажите,пожалуйста, суть.Нужно организовать нечеткий поиск в БД.Какой нечеткий поиск реализовать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru