Сегментирование слова

@Tanya933 · Регистрация: 28.08.2015

Author24 — интернет-сервис помощи студентам

Сегментирую с помощью алгоритма floodfill. Но не знаю, что делать с буквами й ы ё. Есть какие-нибудь идеи?

@VTsaregorodtsev · 06.04.2016, 22:59

Можно попробовать убирать с картинки "объекты" из малого числа точек, затем такие испохабленные (и поэтому неправильно распознанные) буквы корректировать при помощи словаря.

Словарь Лебедева (идёт в составе Оперы, да и вроде в интернете свободно распространяется) буквы ё содержит, можно им воспользоваться (а вот про Зализняка не помню - есть там ё или она заменена на е).

@MLPMan · 20.04.2016, 12:21

Tanya933, а была проблема слитых букв?

Добавлено через 27 минут
Была мысль идентифицировать по аномально большой ширине, но она может оказываться в пределах нормальной, например, между заглавной W и прописной i разница довольно большая. Может, сначала также учитывать, хорошо ли разпознаётся, но это усложняет, потому что задача из другого уровня. Тоисть, по идее, сначала работает резалка на символы, а затем сопоставление кусочков с эталонами. Есть какие-нить советы, ребята?

echs · 21.04.2016, 16:40

MLPMan
А что если сканировать буквы с помощью прямых линий.
Например из середины буквы П можно выйти вниз без
проблем. А из буквы О такое не получится при любом
направлении. Иными словами все буквы распадутся на
несколько классов и это можно использовать для их
идентификации. Или нет?

@MLPMan · 22.04.2016, 00:52

geh, как я понял, это будет уже другой, более сложный (чем flood-fill) способ. Кажется и более точным, но я пока очень смутно представляю, как такое закодить.

Добавлено через 7 минут
VTsaregorodtsev, по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число, ник, или артикул).

@VTsaregorodtsev · 22.04.2016, 14:51

Сообщение от MLPMan

по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число

См начальный пост - вопрос был вполне конкретный, про сложности с БУКВАМИ "й ы ё", а не про числа.

Сообщение от geh

Иными словами все буквы распадутся на
несколько классов и это можно использовать для их
идентификации.

Да, хорошая идея, многие используют. Но чаще разделением на группы букв "без дырок" (г, к, п,...), с одной дыркой (о, б, д,..), с двумя дырками (в). Аналогично и для цифр при их распознавании.
Но опять же - это уже для распознавания, а не для сегментирования. Тема же началась со сложностей с сегментированием букв, состоящих из нескольких несвязных "частей". Причём это в русском только три такие буквы - а у немцев и скандинавов гораздо больше букв с умляутами (диакритическими знаками).

@buddismdotru · 26.05.2016, 01:54

Обычно можно уменьшить разрешение и представить слово как совокупнось пятен обладающих общим контуром.
Для этого достаточно уменьшить разрешение и применить растискивание.
Это не будет работать в том случае, если текст сильно сжат (это часто бывает в неаккуратно сверстанных текстах)
В этом случае промежуток между словами часто меньше ширины буквы.
Также во многих восточных языках слова не разделены пробелами.
Поэтому более общий способ разделения слов это словарный анализ предложения.

Добавлено через 3 минуты
VTsaregorodtsev,
Сама по себе задача сегментации это надстройка над распознаванием символов. Невозможно сегментировать слова если сами слова не определены. Особенно очевидно это на рукописных текстах, в которых верхние и нижние строки часто частично перекрываются.

@Tanya933 1 / 1 / 0 Регистрация: 28.08.2015 Сообщений: 112
		1
	Сегментирование слова 06.04.2016, 12:03. Показов 488. Ответов 6 Метки нет (Все метки) Сегментирую с помощью алгоритма floodfill. Но не знаю, что делать с буквами й ы ё. Есть какие-нибудь идеи? 0

@VTsaregorodtsev 1486 / 1413 / 240 Регистрация: 19.02.2010 Сообщений: 3,914
	06.04.2016, 22:59	2
	Можно попробовать убирать с картинки "объекты" из малого числа точек, затем такие испохабленные (и поэтому неправильно распознанные) буквы корректировать при помощи словаря. Словарь Лебедева (идёт в составе Оперы, да и вроде в интернете свободно распространяется) буквы ё содержит, можно им воспользоваться (а вот про Зализняка не помню - есть там ё или она заменена на е). 1

@MLPMan Кандёхаем веселее! 296 / 328 / 76 Регистрация: 02.10.2012 Сообщений: 2,175
	20.04.2016, 12:21	3
	Tanya933, а была проблема слитых букв? Добавлено через 27 минут Была мысль идентифицировать по аномально большой ширине, но она может оказываться в пределах нормальной, например, между заглавной W и прописной i разница довольно большая. Может, сначала также учитывать, хорошо ли разпознаётся, но это усложняет, потому что задача из другого уровня. Тоисть, по идее, сначала работает резалка на символы, а затем сопоставление кусочков с эталонами. Есть какие-нить советы, ребята? 0

echs Регистрация: 23.10.2013 Сообщений: 5,076 Записей в блоге: 8
	21.04.2016, 16:40	4
	MLPMan А что если сканировать буквы с помощью прямых линий. Например из середины буквы П можно выйти вниз без проблем. А из буквы О такое не получится при любом направлении. Иными словами все буквы распадутся на несколько классов и это можно использовать для их идентификации. Или нет? 0

@MLPMan Кандёхаем веселее! 296 / 328 / 76 Регистрация: 02.10.2012 Сообщений: 2,175
	22.04.2016, 00:52	5
	geh, как я понял, это будет уже другой, более сложный (чем flood-fill) способ. Кажется и более точным, но я пока очень смутно представляю, как такое закодить. Добавлено через 7 минут VTsaregorodtsev, по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число, ник, или артикул). 0

@VTsaregorodtsev 1486 / 1413 / 240 Регистрация: 19.02.2010 Сообщений: 3,914
	22.04.2016, 14:51	6
	Сообщение от MLPMan по поводу словаря, к сожалению, не поможет, если последовательность будет не словом (например, число См начальный пост - вопрос был вполне конкретный, про сложности с БУКВАМИ "й ы ё", а не про числа. Сообщение от geh Иными словами все буквы распадутся на несколько классов и это можно использовать для их идентификации. Да, хорошая идея, многие используют. Но чаще разделением на группы букв "без дырок" (г, к, п,...), с одной дыркой (о, б, д,..), с двумя дырками (в). Аналогично и для цифр при их распознавании. Но опять же - это уже для распознавания, а не для сегментирования. Тема же началась со сложностей с сегментированием букв, состоящих из нескольких несвязных "частей". Причём это в русском только три такие буквы - а у немцев и скандинавов гораздо больше букв с умляутами (диакритическими знаками). 0

@buddismdotru 22 / 3 / 0 Регистрация: 24.05.2016 Сообщений: 61
	26.05.2016, 01:54	7
	Обычно можно уменьшить разрешение и представить слово как совокупнось пятен обладающих общим контуром. Для этого достаточно уменьшить разрешение и применить растискивание. Это не будет работать в том случае, если текст сильно сжат (это часто бывает в неаккуратно сверстанных текстах) В этом случае промежуток между словами часто меньше ширины буквы. Также во многих восточных языках слова не разделены пробелами. Поэтому более общий способ разделения слов это словарный анализ предложения. Добавлено через 3 минуты VTsaregorodtsev, Сама по себе задача сегментации это надстройка над распознаванием символов. Невозможно сегментировать слова если сами слова не определены. Особенно очевидно это на рукописных текстах, в которых верхние и нижние строки часто частично перекрываются. 0

Опции темы