Форум программистов, компьютерный форум, киберфорум
Shell, Bash
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4

Как разбить 1-ин pdf документ на множество pdf файлов в соответствии с регулярным выражением ?

27.02.2020, 16:42. Показов 2561. Ответов 13
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть документ представляющий собой сборник статей тезисов (c рисунками) в двух формате pdf, задача получить из многостраничного документа содержащего множество статей множество файлов каждый из которых содержит по одной статье причем деление на статьи должно быть быть постраничным т.е кажждый файл содержит одну статью если следующая статья начинает на странице где кончается первая статья то эта страница захватывается целиком независимо ни от чего. Кроме того каждый файл должен иметь название вида 0номер страницы где начинается статья-0номер страницы где статья заканчивается.pdf
У меня такой вопрос чем осуществить подобное деление в командной строке линукс
Хотелось бы увидеть шелскрипт выполняющий подобное деление
признак для фильтрации такой (к сожалению не знаю спецсимвола начала страницы в pdf да это и бесполезно в каждом иструменте он свой а фильтрация такова
'спецсимвол начала страницы"УДК" Авторский знак Некое множество букв содержащих Фамилию И.О. через запятую год Любое количество символов Спецсимвол конца страницы'
В результате возникает ряд новых вопросов
0. каким инструментом пользоваться для разбивки
1. Кодирование символа начала и конца страницы
2. Кодирование авторского знака
3.Сохранение номера начальной (содержащей УДК) и конечной страницы (содержащей авторский знак copyright

Добавлено через 1 час 12 минут
Обращаю внимание отвечающих просто разбить на файлы pdf мне не требуется!!!!!!
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
27.02.2020, 16:42
Ответы с готовыми решениями:

Как соединить несколько PDF файлов в один документ PDF?
имею распечатку книжки в 45 pdf файлах. как-то неудобно просматривать её. как их все объединить в один pdf файл? Может спец софт необходим?

Разбить PDF документ на страницы
Здравствуйте, уважаемые форумчане. Пришёл к вам за советом: необходим скрипт, который бы разбивал PDF документ на отдельные страницы (т.е....

Как разбить папку c N-ным количеством PDF-документов на папки с заданным числом файлов, одинаковым для каждой?
Помогите пожалуйста составить скрипт, для разбития папки, или может кто знает программу для таких действий, ситуация проста Приходит...

13
Эксперт NIX
 Аватар для nezabudka
3334 / 752 / 252
Регистрация: 28.06.2015
Сообщений: 1,552
Записей в блоге: 16
28.02.2020, 11:57

Не по теме:

Кратчайший путь к успеху это грамотно составленный райдер


Этот раздел форума не сервис по написанию сценариев.
Цитата Сообщение от IOvan Посмотреть сообщение
Хотелось бы увидеть шелскрипт выполняющий подобное деление
Для начала хотелось бы увидеть ваши попытки по решению задачи
0
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
28.02.2020, 16:53  [ТС]
Для того чтобы рассказать о своих попытках мне необходимо знать каким инструментами для этого можно пользоваться а по поводу поток алгорим разбиения изложен в тексте задачи вот еще вариант - алгоритм разбиения фильтрация всех страниц документа на предмет вхождения в них строк содержащих УДК и авторский знак копирайт © определение номеров страниц содержащих эти строки, экспорт номеров этих строк в массив или файл вида номер страницы содержащей УДК-номер страницы содержащей © затем построчное считывание этих страниц в splitpdf в качестве входных значений и сохрание полученного результата так как сказано в тексте задачи.
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.03.2020, 13:07
Я бы перевел каким-нибудь конвертером pdf в html постранично. А дальше парсил бы эти html на предмет наличия заголовков, кегля, жирного шрифта и т.д. Что-то подобное я делал в винде на AutoIt..
0
5949 / 4525 / 1094
Регистрация: 29.08.2013
Сообщений: 28,105
Записей в блоге: 3
04.03.2020, 15:03
pdf это картинка. что бы разбивать по символам картинку надо в эти самые символы конвертировать
найди утилиту которая распознает pdf в txt\rtf в линуксе и когда у тебя будут готовы эти файлы ты легко разберешь на страницы
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
04.03.2020, 15:11
qwertehok, нет, pdf это не картинка. С тем же успехом можно говорить, что и doc/rtf это картинка.
0
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
10.03.2020, 11:19  [ТС]
Все это не представляется возможным, т.к. документ содержит картинки.
0
5949 / 4525 / 1094
Регистрация: 29.08.2013
Сообщений: 28,105
Записей в блоге: 3
10.03.2020, 11:50
тогда нужно программирование + что то типа ABBYY API

распознаешь и делишь
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
10.03.2020, 13:22
По большому счету распознавание и не нужно. Найти есть ли на одной картинке чуть более крупный шрифт, чем на другой можно и в Imagemagick.
0
0 / 0 / 0
Регистрация: 07.11.2016
Сообщений: 4
10.03.2020, 16:38  [ТС]
А просто сделать экспорт страниц по заданному рег выражению нельзя ? Неужели не существует инструментария для этого работающего в ком строке?

Добавлено через 2 минуты
А зачем если нуно просто получить на выходе структурно такие же файлы как исходный только по одной статье в файле о картинках я написал только для того чтобы не было предложений типа берешь зва ковертишь в txt и грепишь его, я просто хотел обратить внимание что такой вариант не годится из-за иллистраций
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
10.03.2020, 19:27
Почему предложение про конвертацию txt/html не подходит? Это нужно только для поиска начала/конца новой статьи. А так из исходного pdf нарезаются страницы в соответствии с найденными началами статей и картинки никуда не деваются.

Добавлено через 6 минут
Пример:
исходный файл pdf -20 стр.
сконвертировали в 20 txt файлов с именами 001.txt...020.txt
grepом нашли что слово УДК находится в 001.txt, 005.txt,015.txt
значит вырезаем в отдельные файлы из исходного pdf страницы 1-4, 5-14,15-20
0
5949 / 4525 / 1094
Регистрация: 29.08.2013
Сообщений: 28,105
Записей в блоге: 3
10.03.2020, 22:35
Цитата Сообщение от u235 Посмотреть сообщение
исходный файл pdf -20 стр.
сконвертировали в 20 txt файлов
вот это вот как сделать?
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,751
11.03.2020, 06:51
qwertehok, например утилитой pdftotext из пакета poppler, м.б. придется 3-4 срочки на баше написать для постраничной обработки.

Добавлено через 29 минут
Bash
1
2
pdftotext in.pdf in.txt
csplit -n 4 -f '' in.txt '/^L/' '{*}'
все.
^L набирать как Ctrl-v Ctrl-L
0
5949 / 4525 / 1094
Регистрация: 29.08.2013
Сообщений: 28,105
Записей в блоге: 3
11.03.2020, 08:40
ну и отлично, то что ТС и надо
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
11.03.2020, 08:40
Помогаю со студенческими работами здесь

Разбить строку регулярным выражением
Есть питоновские списки, представленные в виде строк string a = ", , ]" string b = "" string c = "" Как разбить эти...

Разделение pdf-файла на несколько pdf-файлов
Здравствуйте, подскажите как разделить файл pdf - состоящий из n-страниц, на несколько файлов pdf через itextsharp.

Безопасная загрузка документ-файлов на сервер типа pdf, doc, docx
Здравствуйте! Строю сайт, на котором пользователи могут закачитвать файлы разных форматов. Хочу узнать какую проверку делать для...

Каким регулярным выражением можно разбить html текст в массив по тегам?
Есть, к примеру, такой код: <img src="image.jpg" /><p>Об этом впервые заговорили в конце 1950-х годов.</p> <span>роль...

Как разбить PDF
Как разбить PDF файл на несколько частей? :help:


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru