1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
1

Объединение блоков на газетной вырезке

19.09.2018, 19:38. Показов 3639. Ответов 15
Метки нет (Все метки)

Доброго времени суток, есть датасет с координатами текстовых блоков на газетных вырезках. Нужно объединить блоки в цельные статьи (на одной странице может быть более одной статьи). Имеет ли смысл использовать архитектуру EAST (An Efficient and Accurate Scene Text Detector), которая не плохо справляется с детектированием текста, но при этом обучить её на моем датасете, или нужно "подбирать" другую архитектуру ?

Добавлено через 1 час 45 минут
Пробовал с помощью opencv решить эту задачу. Подход был такой
1)Детектирование углов (Канни)
2)Детектирование контуров (Dilation)
3)Поиск контуров и приближение контуров
Python
1
2
3
4
5
6
        blur = cv2.GaussianBlur(self.draw_image, (5, 5), 0)
        edged = cv2.Canny(blur, 0, 100)
        dilated = cv2.dilate(edged, np.ones((11, 11)))
 
        _, contours, _ = cv2.findContours(dilated, cv2.RETR_EXTERNAL,
                                          cv2.CHAIN_APPROX_SIMPLE)
Но рядом стоящие блоки выделить не получилось.
__________________
Помощь в написании контрольных, курсовых и дипломных работ здесь
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
19.09.2018, 19:38
Ответы с готовыми решениями:

Объединение 2-х системных блоков в один.
Добрый вечер. Имеются 2 системных блока. Можно ли из них собрать 1 компьютер, т.е подключить...

Вид новостей типа газетной ленты
Здравствуйте. Как сделать новость без отступов: До меня просто почему-то не дойдет. Может...

Создать круг разделенный на 6 блоков, в центре логотип, при наведении на один из блоков он увеличивается
Доброго времени суток. Не знаю, как даже искать похожее. В общем нужно создать круг разделен на 6...

Выделить последовательно пять блоков памяти. Высвободить второй блок, после чего вывести информацию о цепочке блоков
Выделить последовательно пять блоков памяти. Высвободить второй блок, после чего вывести информацию...

15
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
19.09.2018, 19:47  [ТС] 2
Вот пример
Объединение блоков на газетной вырезке
0
Модератор
2843 / 2009 / 431
Регистрация: 26.03.2015
Сообщений: 7,723
19.09.2018, 20:47 3
Цитата Сообщение от Jexio Посмотреть сообщение
Вот пример
Мало.
На данной странице достаточно расположить все блоки, кроме рекламы, один за другим.
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
20.09.2018, 04:41  [ТС] 4
Я думал над этим т.е хотел делить все по сепаратору - большой фиолетовый прямоугольник (он так же есть перед картинкой внизу) Но иногда ни вертикальных, ни горизонтальных сепараторов нету, а объединить блоки надо.
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
20.09.2018, 04:49  [ТС] 5
Вот еще пример, но таких будет уже меньше в датасете. Здесь нужен объединить в один блок, к сожалению, не могу найти сейчас пример, когда нужно выделить сразу в два блока. Но могу так описать. Представим, что самая левая колонка находится выше, чем остальные и её необходимо выделить, как отдельный блок.
Объединение блоков на газетной вырезке
0
Модератор
2843 / 2009 / 431
Регистрация: 26.03.2015
Сообщений: 7,723
20.09.2018, 11:15 6
Предлагаю разделить задачу на несколько.

1. Поделить на блоки.
2. Выстроить блоки в линию.
3. Удалить блоки, не являющиеся частью статей (рекламу и т.д.).
4. Определить границы статей.

Решать эти задачи по-очереди. Переходить к следующей только после того, как предыдущая решена (отлажена и протестирована).

Первую задачу Вы уже решили?
Вторая задача, вроде, решается простой сортировкой по координатам левого верхнего угла.
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
20.09.2018, 15:12  [ТС] 7
Shamil1, Можно говорить о том, что все три решены (1 и 3 точно, 2 тоже не проблема). Данные для этого есть. Реклама и прочее помечены, как картинки. Интересен только 4 пункт.
Хочется эвристики по типу, вот тут сепаратор значит конец статьи, оставить на потом. А сперва попробовать нейронные сети для этой задачи.

Добавлено через 2 часа 21 минуту
Shamil1, Но если у вас есть предложения по 4 пункту, то с радостью их выслушаю
0
Модератор
2843 / 2009 / 431
Регистрация: 26.03.2015
Сообщений: 7,723
20.09.2018, 16:44 8
Цитата Сообщение от Jexio Посмотреть сообщение
Реклама и прочее помечены, как картинки.
На первой странице заголовок второй статьи поверх картинки, вроде?

Цитата Сообщение от Jexio Посмотреть сообщение
Но если у вас есть предложения по 4 пункту, то с радостью их выслушаю
Размер шрифта сильно больше.
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
20.09.2018, 18:28  [ТС] 9
Цитата Сообщение от Shamil1 Посмотреть сообщение
На первой странице заголовок второй статьи поверх картинки, вроде?
Да, поверх картинки, он игнорируется.
Цитата Сообщение от Shamil1 Посмотреть сообщение
Размер шрифта сильно больше
Для заголовка? Конечно больше. Его я могу выделить тоже
0
500 / 396 / 53
Регистрация: 20.09.2014
Сообщений: 2,417
20.09.2018, 19:44 10
Мне кажется, что все вопросы по решению задач машинного обучения следует задавать только на каггле. На форумах ответы сводятся к подобию следующего: а ты знаешь, что такое "дельта-правило". Ну или Виктор может дать ссылку на 142 литературных источника на английском языке, из них 58 созданы русскоязычными авторами, кстати.
1
Модератор
2843 / 2009 / 431
Регистрация: 26.03.2015
Сообщений: 7,723
20.09.2018, 20:33 11
Цитата Сообщение от Jexio Посмотреть сообщение
Для заголовка? Конечно больше. Его я могу выделить тоже
Получившаяся цепочка блоков будет разбита на статьи блоками заголовка.
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
21.09.2018, 07:13  [ТС] 12
Второй заголовок игнорируется. Он считается просто за изображение поэтому не могу цепочку поделить так

Добавлено через 6 минут
Если на stackoverflow не ответят, то и туда загляну
0
Модератор
2843 / 2009 / 431
Регистрация: 26.03.2015
Сообщений: 7,723
21.09.2018, 09:06 13
Цитата Сообщение от Jexio Посмотреть сообщение
Второй заголовок игнорируется. Он считается просто за изображение поэтому не могу цепочку поделить так
А если не игнорировать изображения?
Тем более, что заголовок второй статьи можно получить, только проанализировав изображение.
0
1164 / 1101 / 174
Регистрация: 19.02.2010
Сообщений: 3,273
21.09.2018, 17:58 14
Цитата Сообщение от Mikhaylo Посмотреть сообщение
ссылку на 142 литературных источника на английском языке, из них 58 созданы русскоязычными авторами, кстати.
Не ври - и не будешь принародно выпорот.
Вот тебе в специальном гугловском средстве для работы с официальными научными публикациями (вместо ширпотребного гугла, где выдаваться может любой бред по теме) - конкретная ссылочка на список цитирующих работ
https://scholar.google.ru/scho... =0,5&hl=ru
Посчитай, сколько там русскоязычных авторов. И потом покайся, грешник


PS. ТСу, Шамилю (как основным разговаривающим в теме) - сорри за офф. Просто Михайло свой пост написал так, что не поймёшь - троллит ли он или целенаправленно врёт глубоко заблуждается. Поэтому и ответил на его отсылку к соседней теме (где нейросетку хотят научить ходить).
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
22.09.2018, 05:56  [ТС] 15
Цитата Сообщение от Shamil1 Посмотреть сообщение
А если не игнорировать изображения?
Тем более, что заголовок второй статьи можно получить, только проанализировав изображение.
Ну, будем говорить так, что текст с изображения получить непростая задача и я её не могу решить(времени нету с этим разобраться). Поэтому приходится работать с данными, которые содержат только координаты объектов и их тип (текстовый блок, сепаратор, картинка) и так же размер начертания символов в текстовом блоке. Ну так к слову, я решил попробовать модель Yolo (нейронку для детектирования объектов на изображение), обучив её на моем датасете. На следующей неделе будет результат
0
1 / 1 / 1
Регистрация: 22.11.2015
Сообщений: 139
05.10.2018, 08:01  [ТС] 16
Возможно, кому-нибудь будет интересно. Tensorflow object detection с модель faster_RCNN справился с такой задачей удовлетворительно.
0
05.10.2018, 08:01
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
05.10.2018, 08:01

Параллельная вертикальная прокрутка двух блоков и отдельная горизонтальная прокрутка одного из двух блоков
Всем привет! Помогите решить проблему, пожалуйста. Есть блок div, внутри которого два блока div (в...

Объединение таблиц (внешнее объединение)
Подскажите как правильно выполнить запрос объединения таблиц? Допустим есть у меня 2 таблицы: (*...

Использование подзапроса, левое внешнее объединение, правое внешнее объединение
Помогите составить три данных запроса


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2022, CyberForum.ru