Форум программистов, компьютерный форум CyberForum.ru

C++

Войти
Регистрация
Восстановить пароль
 
ssaa
0 / 0 / 0
Регистрация: 04.11.2014
Сообщений: 9
#1

Как сконвертировать pdf в docx? - C++

16.06.2015, 18:09. Просмотров 343. Ответов 14
Метки нет (Все метки)

Добрый вечер.
Интересует следующее: кто может подсказать способ(если таковой имеется), как мне в приложении реализовать конвертацию файла PDF в DOCX?С помощью каких средств или каким образом.
Спасибо!
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
quwy
Native x86
3084 / 1932 / 510
Регистрация: 13.02.2013
Сообщений: 6,433
16.06.2015, 18:24     Как сконвертировать pdf в docx? #2
Преобразовать PDF даже в простой текст зачастую возможно только OCR-методом, а в текст с разметкой -- вообще без вариантов. Так что курите движки распознавалок на предмет возможности встраивания в свое приложение.
ssaa
0 / 0 / 0
Регистрация: 04.11.2014
Сообщений: 9
16.06.2015, 18:51  [ТС]     Как сконвертировать pdf в docx? #3
А если, скажем, не в приложении, а с помощью стороннего по, при чем автоматизируя все это дело?Мне упоминали про запуск с параметрами или как-то передать в онлайн конвертер
quwy
Native x86
3084 / 1932 / 510
Регистрация: 13.02.2013
Сообщений: 6,433
16.06.2015, 18:55     Как сконвертировать pdf в docx? #4
Цитата Сообщение от ssaa Посмотреть сообщение
А если, скажем, не в приложении, а с помощью стороннего по, при чем автоматизируя все это дело?Мне упоминали про запуск с параметрами или как-то передать в онлайн конвертер
Можно. Я конкретного ничего не подскажу, ибо не знаю. Просто предостерег вас от бесполезной потери времени на поиск "преобразователя". Относитесь к PDF не как к текстовому, а как к графическому формату. И, соответственно ищите удобные вам звенья такой цепочки:
1. Рендеринг PDF в BMP.
2. Распознавание BMP и сохранение результата в DOCX.
ssaa
0 / 0 / 0
Регистрация: 04.11.2014
Сообщений: 9
16.06.2015, 18:59  [ТС]     Как сконвертировать pdf в docx? #5
Цитата Сообщение от quwy Посмотреть сообщение
Можно. Я конкретного ничего не подскажу, ибо не знаю. Просто предостерег вас от бесполезной потери времени на поиск "преобразователя". Относитесь к PDF не как к текстовому, а как к графическому формату. И, соответственно ищите удобные вам звенья такой цепочки:
1. Рендеринг PDF в BMP.
2. Распознавание BMP и сохранение результата в DOCX.
Спасибо, попробую
Avazart
7062 / 5239 / 261
Регистрация: 10.12.2010
Сообщений: 23,043
Записей в блоге: 17
16.06.2015, 23:16     Как сконвертировать pdf в docx? #6
Цитата Сообщение от ssaa Посмотреть сообщение
Интересует следующее: кто может подсказать способ(если таковой имеется), как мне в приложении реализовать конвертацию файла PDF в DOCX?С помощью каких средств или каким образом.
Разбором pdf- формата, т.е искать описание формата и руками делать разбор, ну или искать либу для этого, но лично я такой не нашел. Формировать docx можно через OLE.

Добавлено через 1 минуту
Цитата Сообщение от quwy Посмотреть сообщение
Можно. Я конкретного ничего не подскажу, ибо не знаю. Просто предостерег вас от бесполезной потери времени на поиск "преобразователя". Относитесь к PDF не как к текстовому, а как к графическому формату. И, соответственно ищите удобные вам звенья такой цепочки:
1. Рендеринг PDF в BMP.
2. Распознавание BMP и сохранение результата в DOCX.
Думаю очень плахая идея. Разпознование текста куда сложнее разбора самого файла.
ssaa
0 / 0 / 0
Регистрация: 04.11.2014
Сообщений: 9
17.06.2015, 09:19  [ТС]     Как сконвертировать pdf в docx? #7
А можно поподробней по разбору?
quwy
Native x86
3084 / 1932 / 510
Регистрация: 13.02.2013
Сообщений: 6,433
17.06.2015, 10:34     Как сконвертировать pdf в docx? #8
Цитата Сообщение от Avazart Посмотреть сообщение
Думаю очень плахая идея. Разпознование текста куда сложнее разбора самого файла.
Плохая, не спорю, но ничего лучше до сих пор просто нет.
Avazart
7062 / 5239 / 261
Регистрация: 10.12.2010
Сообщений: 23,043
Записей в блоге: 17
17.06.2015, 14:33     Как сконвертировать pdf в docx? #9
Цитата Сообщение от quwy Посмотреть сообщение
но ничего лучше до сих пор просто нет.
Разбирать файл.

Цитата Сообщение от ssaa Посмотреть сообщение
А можно поподробней по разбору?
Куда подробней? Вы уже подробное описание формата нашли?
quwy
Native x86
3084 / 1932 / 510
Регистрация: 13.02.2013
Сообщений: 6,433
17.06.2015, 18:36     Как сконвертировать pdf в docx? #10
Цитата Сообщение от Avazart Посмотреть сообщение
Разбирать файл.
В файле легко и просто могут быть векорные команды, рисующие текст. Или нарезка из букв в виде картинок. Да и просто текст может быть в каком угодно порядке так, что простое выдергивание даст черти что.
Avazart
7062 / 5239 / 261
Регистрация: 10.12.2010
Сообщений: 23,043
Записей в блоге: 17
17.06.2015, 20:11     Как сконвертировать pdf в docx? #11
Цитата Сообщение от quwy Посмотреть сообщение
В файле легко и просто могут быть векорные команды,
А чем тут поможет распознование?
Цитата Сообщение от quwy Посмотреть сообщение
Или нарезка из букв в виде картинок.
Хз, первый раз такое слышу, как по мне это вообще м*датский случай.

Цитата Сообщение от quwy Посмотреть сообщение
Да и просто текст может быть в каком угодно порядке
Чего ?
Почтальон
Модератор
333 / 259 / 45
Регистрация: 22.03.2015
Сообщений: 1,994
Завершенные тесты: 1
17.06.2015, 20:40     Как сконвертировать pdf в docx? #12
Цитата Сообщение от Avazart Посмотреть сообщение
Чего ?
например VIN-код автомобиля, в котором присутствуют как цифры, так и буквы, затрудняющее распознавание. Как я понял, для распознавания нужно получить что-то и это что-то сравнить с чем-то, скорее с каким-то словарем. Это как я себе представляю
gazlan
3130 / 1905 / 285
Регистрация: 27.08.2010
Сообщений: 5,132
Записей в блоге: 1
17.06.2015, 21:02     Как сконвертировать pdf в docx? #13
Цитата Сообщение от quwy Посмотреть сообщение
черт-те что
JavaScript, например. Или Encrypted container. Или, что угодно еще...
Izual
94 / 119 / 6
Регистрация: 13.11.2012
Сообщений: 1,537
18.06.2015, 10:09     Как сконвертировать pdf в docx? #14
О чём вопрос, adobe pdf reader 11+ версии это делает..
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
18.06.2015, 11:10     Как сконвертировать pdf в docx?
Еще ссылки по теме:

Как сконвертировать свой тип в тип double? C++
Как сконвертировать URL вида %D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B0 туда и обратно? C++
Сконвертировать структуру в TIdBytes для передачи по TidUDP C++ Builder
C++ Сконвертировать вектор строк в переменную типа float
[VC++6.0] Во что сконвертировать LPCWSTR без потерь? C++

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
quwy
Native x86
3084 / 1932 / 510
Регистрация: 13.02.2013
Сообщений: 6,433
18.06.2015, 11:10     Как сконвертировать pdf в docx? #15
Цитата Сообщение от Avazart Посмотреть сообщение
А чем тут поможет распознование?
Тем, что распознаваться будет результат рендеринга, где команды уже выолнены и текст отрисован.

Цитата Сообщение от Avazart Посмотреть сообщение
Чего ?
Видели сайт, у которого CSS не загрузился? Текст в исходнике может находиться совсем не там, где он в итоге отображается.
Yandex
Объявления
18.06.2015, 11:10     Как сконвертировать pdf в docx?
Ответ Создать тему
Опции темы

Текущее время: 05:01. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru