|
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
|
|
Как разбить 1-ин pdf документ на множество pdf файлов в соответствии с регулярным выражением ?27.02.2020, 16:42. Показов 2617. Ответов 13
Метки нет (Все метки)
Есть документ представляющий собой сборник статей тезисов (c рисунками) в двух формате pdf, задача получить из многостраничного документа содержащего множество статей множество файлов каждый из которых содержит по одной статье причем деление на статьи должно быть быть постраничным т.е кажждый файл содержит одну статью если следующая статья начинает на странице где кончается первая статья то эта страница захватывается целиком независимо ни от чего. Кроме того каждый файл должен иметь название вида 0номер страницы где начинается статья-0номер страницы где статья заканчивается.pdf
У меня такой вопрос чем осуществить подобное деление в командной строке линукс Хотелось бы увидеть шелскрипт выполняющий подобное деление признак для фильтрации такой (к сожалению не знаю спецсимвола начала страницы в pdf да это и бесполезно в каждом иструменте он свой а фильтрация такова 'спецсимвол начала страницы"УДК" Авторский знак Некое множество букв содержащих Фамилию И.О. через запятую год Любое количество символов Спецсимвол конца страницы' В результате возникает ряд новых вопросов 0. каким инструментом пользоваться для разбивки 1. Кодирование символа начала и конца страницы 2. Кодирование авторского знака 3.Сохранение номера начальной (содержащей УДК) и конечной страницы (содержащей авторский знак copyright Добавлено через 1 час 12 минут Обращаю внимание отвечающих просто разбить на файлы pdf мне не требуется!!!!!!
0
|
|
| 27.02.2020, 16:42 | |
|
Ответы с готовыми решениями:
13
Как соединить несколько PDF файлов в один документ PDF? Разбить PDF документ на страницы Как разбить папку c N-ным количеством PDF-документов на папки с заданным числом файлов, одинаковым для каждой? |
|
|
||
| 28.02.2020, 11:57 | ||
|
Не по теме: Кратчайший путь к успеху это грамотно составленный райдер Этот раздел форума не сервис по написанию сценариев.
0
|
||
|
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
|
|
| 28.02.2020, 16:53 [ТС] | |
|
Для того чтобы рассказать о своих попытках мне необходимо знать каким инструментами для этого можно пользоваться а по поводу поток алгорим разбиения изложен в тексте задачи вот еще вариант - алгоритм разбиения фильтрация всех страниц документа на предмет вхождения в них строк содержащих УДК и авторский знак копирайт © определение номеров страниц содержащих эти строки, экспорт номеров этих строк в массив или файл вида номер страницы содержащей УДК-номер страницы содержащей © затем построчное считывание этих страниц в splitpdf в качестве входных значений и сохрание полученного результата так как сказано в тексте задачи.
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 04.03.2020, 13:07 | |
|
Я бы перевел каким-нибудь конвертером pdf в html постранично. А дальше парсил бы эти html на предмет наличия заголовков, кегля, жирного шрифта и т.д. Что-то подобное я делал в винде на AutoIt..
0
|
|
| 04.03.2020, 15:03 | |
|
pdf это картинка. что бы разбивать по символам картинку надо в эти самые символы конвертировать
найди утилиту которая распознает pdf в txt\rtf в линуксе и когда у тебя будут готовы эти файлы ты легко разберешь на страницы
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 04.03.2020, 15:11 | |
|
qwertehok, нет, pdf это не картинка. С тем же успехом можно говорить, что и doc/rtf это картинка.
0
|
|
|
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
|
|
| 10.03.2020, 11:19 [ТС] | |
|
Все это не представляется возможным, т.к. документ содержит картинки.
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 10.03.2020, 13:22 | |
|
По большому счету распознавание и не нужно. Найти есть ли на одной картинке чуть более крупный шрифт, чем на другой можно и в Imagemagick.
0
|
|
|
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
|
|
| 10.03.2020, 16:38 [ТС] | |
|
А просто сделать экспорт страниц по заданному рег выражению нельзя ? Неужели не существует инструментария для этого работающего в ком строке?
Добавлено через 2 минуты А зачем если нуно просто получить на выходе структурно такие же файлы как исходный только по одной статье в файле о картинках я написал только для того чтобы не было предложений типа берешь зва ковертишь в txt и грепишь его, я просто хотел обратить внимание что такой вариант не годится из-за иллистраций
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
|
| 10.03.2020, 19:27 | |
|
Почему предложение про конвертацию txt/html не подходит? Это нужно только для поиска начала/конца новой статьи. А так из исходного pdf нарезаются страницы в соответствии с найденными началами статей и картинки никуда не деваются.
Добавлено через 6 минут Пример: исходный файл pdf -20 стр. сконвертировали в 20 txt файлов с именами 001.txt...020.txt grepом нашли что слово УДК находится в 001.txt, 005.txt,015.txt значит вырезаем в отдельные файлы из исходного pdf страницы 1-4, 5-14,15-20
0
|
|
|
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
|
||||||
| 11.03.2020, 06:51 | ||||||
|
qwertehok, например утилитой pdftotext из пакета poppler,
Добавлено через 29 минут
^L набирать как Ctrl-v Ctrl-L
0
|
||||||
| 11.03.2020, 08:40 | |
|
ну и отлично, то что ТС и надо
0
|
|
| 11.03.2020, 08:40 | |
|
Помогаю со студенческими работами здесь
14
Разбить строку регулярным выражением Разделение pdf-файла на несколько pdf-файлов Безопасная загрузка документ-файлов на сервер типа pdf, doc, docx
Как разбить PDF Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога
Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
|
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
|
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога
Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
|
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога
Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
|
|
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога
Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
|
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
|
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога
В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
|
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|