1 / 1 / 0
Регистрация: 28.08.2015
Сообщений: 112
1

Сегментирование слова

06.04.2016, 12:03. Показов 488. Ответов 6
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Сегментирую с помощью алгоритма floodfill. Но не знаю, что делать с буквами й ы ё. Есть какие-нибудь идеи?
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
06.04.2016, 12:03
Ответы с готовыми решениями:

Сегментирование разделяемой среды и имитационное моделирование
Здравствуйте. Есть такая программа NetCracker - для имитационного моделирования сетей. Я разбил...

Напечатать все слова, отличные от последнего слова, предварительно перенеся первую букву в конец слова
Дана последовательность, содержащая от 2 до 30 слов, в каждом из которых от 2 до 10 латинских...

Напечатать все слова отличные от последнего слова, предварительно перенести последнюю букву в начало слова
Дано текст, содержащий от 2 до 30 слов, в каждом из которых от 2 до 10 латинских букв, между...

Напечатать слова, которые отличны от последнего слова текста, предварительно удалив из слова последнюю букву
Дана последовательность содержащая от 1 до 30 слов, в каждом из которых от 1 до 5 строчных...

6
1486 / 1413 / 240
Регистрация: 19.02.2010
Сообщений: 3,914
06.04.2016, 22:59 2
Можно попробовать убирать с картинки "объекты" из малого числа точек, затем такие испохабленные (и поэтому неправильно распознанные) буквы корректировать при помощи словаря.

Словарь Лебедева (идёт в составе Оперы, да и вроде в интернете свободно распространяется) буквы ё содержит, можно им воспользоваться (а вот про Зализняка не помню - есть там ё или она заменена на е).
1
Кандёхаем веселее!
296 / 328 / 76
Регистрация: 02.10.2012
Сообщений: 2,175
20.04.2016, 12:21 3
Tanya933, а была проблема слитых букв?

Добавлено через 27 минут
Была мысль идентифицировать по аномально большой ширине, но она может оказываться в пределах нормальной, например, между заглавной W и прописной i разница довольно большая. Может, сначала также учитывать, хорошо ли разпознаётся, но это усложняет, потому что задача из другого уровня. Тоисть, по идее, сначала работает резалка на символы, а затем сопоставление кусочков с эталонами. Есть какие-нить советы, ребята?
0
Регистрация: 23.10.2013
Сообщений: 5,076
Записей в блоге: 8
21.04.2016, 16:40 4
MLPMan
А что если сканировать буквы с помощью прямых линий.
Например из середины буквы П можно выйти вниз без
проблем. А из буквы О такое не получится при любом
направлении. Иными словами все буквы распадутся на
несколько классов и это можно использовать для их
идентификации. Или нет?
0
Кандёхаем веселее!
296 / 328 / 76
Регистрация: 02.10.2012
Сообщений: 2,175
22.04.2016, 00:52 5
geh, как я понял, это будет уже другой, более сложный (чем flood-fill) способ. Кажется и более точным, но я пока очень смутно представляю, как такое закодить.

Добавлено через 7 минут
VTsaregorodtsev, по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число, ник, или артикул).
0
1486 / 1413 / 240
Регистрация: 19.02.2010
Сообщений: 3,914
22.04.2016, 14:51 6
Цитата Сообщение от MLPMan Посмотреть сообщение
по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число
См начальный пост - вопрос был вполне конкретный, про сложности с БУКВАМИ "й ы ё", а не про числа.

Цитата Сообщение от geh Посмотреть сообщение
Иными словами все буквы распадутся на
несколько классов и это можно использовать для их
идентификации.
Да, хорошая идея, многие используют. Но чаще разделением на группы букв "без дырок" (г, к, п,...), с одной дыркой (о, б, д,..), с двумя дырками (в). Аналогично и для цифр при их распознавании.
Но опять же - это уже для распознавания, а не для сегментирования. Тема же началась со сложностей с сегментированием букв, состоящих из нескольких несвязных "частей". Причём это в русском только три такие буквы - а у немцев и скандинавов гораздо больше букв с умляутами (диакритическими знаками).
0
22 / 3 / 0
Регистрация: 24.05.2016
Сообщений: 61
26.05.2016, 01:54 7
Обычно можно уменьшить разрешение и представить слово как совокупнось пятен обладающих общим контуром.
Для этого достаточно уменьшить разрешение и применить растискивание.
Это не будет работать в том случае, если текст сильно сжат (это часто бывает в неаккуратно сверстанных текстах)
В этом случае промежуток между словами часто меньше ширины буквы.
Также во многих восточных языках слова не разделены пробелами.
Поэтому более общий способ разделения слов это словарный анализ предложения.

Добавлено через 3 минуты
VTsaregorodtsev,
Сама по себе задача сегментации это надстройка над распознаванием символов. Невозможно сегментировать слова если сами слова не определены. Особенно очевидно это на рукописных текстах, в которых верхние и нижние строки часто частично перекрываются.
0
26.05.2016, 01:54
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
26.05.2016, 01:54
Помогаю со студенческими работами здесь

В исходной строке а$ определить все слова, отличные от последнего слова. Вывести эти слова в столбик
Помогите решить: В исходной строке а$ определить все слова, отличные от последнего слова. Вывести...

Напечатать все слова, отличные от последнего слова, предварительно удалив из каждого слова последнюю букву
1) Программа. Дан текстиз строчных русских букв, закоторым следует точка. Напечатать этот текст...

Вывести слова, отличные от последнего слова, предварительно удалив из каждого слова первую букву
Дана последовательность, содержащая от 2 до 30 слов, в каждом из которых от 2 до 10 латинских букв;...

Вывести слова, отличные от последнего слова, предварительно удалив из каждого слова последнюю букву
Дана последовательность, содержащая от 2 до 30 слов, в каждом из которых от 2 до 10 строчных...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru