0 / 0 / 0
Регистрация: 06.09.2018
Сообщений: 24

Пропуск чтения пустого файла docx (и вывод полного содержимого файла)

06.11.2018, 17:52. Показов 3638. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!
Данный кусок кода при чтении пустого файла docx выдает ошибку – «…"Package not found at '%s'" % pkg_file
docx.opc.exceptions.PackageNotFoundError : Package not found at 'document.docx'».
Не могу разобраться, как доработать указанный код для пропуска пустых файлов docx (или для вывода на экран, например, «пустой файл»). Используется модуль python-docx.
И еще из файлов не выводится содержимое объектов «надпись» и колонтитулов (выводятся строки и содержимое таблиц).

В идеале хотелось бы производить полное считывание содержимого файла.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
import docx.document
import docx.oxml.table
import docx.oxml.text.paragraph
import docx.table
import docx.text.paragraph
import sys
import os
from sys import stdin, stdout
from os import path
import logging
from docx import Document
 
document = Document('document.docx') 
 
def iter_paragraphs(parent, recursive=True):
    """
    Yield each paragraph and table child within *parent*, in document order.
    Each returned value is an instance of Paragraph. *parent*
    would most commonly be a reference to a main Document object, but
    also works for a _Cell object, which itself can contain paragraphs and tables.
    """
    if isinstance(parent, docx.document.Document):
        parent_elm = parent.element.body
    elif isinstance(parent, docx.table._Cell):
        parent_elm = parent._tc
    else:
        raise TypeError(repr(type(parent)))
 
    for child in parent_elm.iterchildren():
        if isinstance(child, docx.oxml.text.paragraph.CT_P):
            yield docx.text.paragraph.Paragraph(child, parent)
        elif isinstance(child, docx.oxml.table.CT_Tbl):
            if recursive:
                table = docx.table.Table(child, parent)
                for row in table.rows:
                    for cell in row.cells:
                        for child_paragraph in iter_paragraphs(cell):
                            yield child_paragraph
 
 
for paragraph in iter_paragraphs(document):
    print(paragraph.text)
Спасибо!
Миниатюры
Пропуск чтения пустого файла docx (и вывод полного содержимого файла)  
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
06.11.2018, 17:52
Ответы с готовыми решениями:

Открытие файла для чтения и вывод его содержимого на экран
Вообще задача звучит так: Файл содержит сведения о товарах, находящихся на складе: наименование, объем партии, дата поступления на склад,...

Ошибки содержимого файла docx при скачивании файла
Здравствуйте. По не зависящим от меня причинам, пришлось перейти на версию PHP 5.6, и соответственно на Apache 2.4 (до этого был...

Пропуск чтения файла
В точке остановы пропускает while (46 строка), не понимаю почему если честно. И пожалуйста без негатива, я плох в теме файлов. (и в плюсах)...

7
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
06.11.2018, 18:44
Цитата Сообщение от Sador01 Посмотреть сообщение
при чтении пустого файла docx
Файл docx, который вы создаете из контекстного меню не является пустым файлом docx - он является просто пустым файлом. Такие файлы python-docx не читает, потому что там нет никакой xml структуры и это не zip.
Зачем вы такие файлы пытаетесь читать?

По сабжу: перехватывайте docx.opc.exceptions.PackageNotFoundError .
1
0 / 0 / 0
Регистрация: 06.09.2018
Сообщений: 24
07.11.2018, 10:51  [ТС]
Этот кусок кода входит в программу, которая ищет файлы docx в указанной папке (и вложенных папках) на компьютерах пользователей, открывает их и выполняет поиск по содержимому. Но иногда пользователи создают (случайно или нет) пустые файлы и не удаляют потом. Вот на таких файлах программа спотыкается. Также не считывается содержимое (как я ранее написал) объектов «надпись» и колонтитулов. В принципе модуль python-docx позволяет читать такие вещи?
Спасибо.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
07.11.2018, 11:32
Цитата Сообщение от Sador01 Посмотреть сообщение
не считывается содержимое (как я ранее написал) объектов «надпись» и колонтитулов
Судя по тишине на эту тему - как не поддерживалась работа с колонтитулами 3 года назад, так и не поддерживается до сих пор. Что такое "надпись" понятия не имею.
0
0 / 0 / 0
Регистрация: 06.09.2018
Сообщений: 24
07.11.2018, 15:48  [ТС]
Объект «надпись» - это картинка, которую я прикрепил к первому сообщению, часто используется при составлении писем.

Добавлено через 2 минуты
Есть еще какие-нибудь способы чтения docx-файлов помимо модуля python-docx?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
07.11.2018, 15:53
Цитата Сообщение от Sador01 Посмотреть сообщение
Есть еще какие-нибудь способы чтения docx-файлов
Ну, конечно :-) MS OFFICE WORD - он умеет делать все.
0
0 / 0 / 0
Регистрация: 06.09.2018
Сообщений: 24
07.11.2018, 15:55  [ТС]
:-)
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
07.11.2018, 16:14
Зря смеетесь. Я серьезно. Интерфейс COM объекта Word.Application имеет весь набор необходимых методов для работы с docx.
Ни одна сторонняя библиотека даже близко их не реализует. Для работы с COM объектами нужна python либа pywin32.
Примеры работы с Word через Word.Application и pywin32 легко гуглятся. Даже на этом форуме.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
07.11.2018, 16:14
Помогаю со студенческими работами здесь

IdHTTP для чтения содержимого файла
Использую компоненту IdHTTP для чтения содержимого файла на сервере, проблема возникает если у пользователя подключение к Интернету через...

Как правильно осуществить прочтение и вывод из файла .docx?
С помощью текстового редактора определите, сколько раз, не считая сносок, встречается слово «свет» или «Свет» в тексте романа в стихах А....

Вывод полного имени файла, открытого в Opendialog, через edit
Добрый день) Пожалуйста помогите, сутки над этой проблемой сижу. Хочу вывести полное имя файла выборного через Opendialog, вывод...

Вывод в текстовый файл полного пути и размера каждого файла
Приветствую! Помогите написать батник. Закинул его в директорию, запустил, а он вывел в текстовый файл полный путь каждого файла и...

Считывание информации из файла docx и запись в созданный файл docx
Нужно сделать консольное приложение для считывания информации с docx и запись в созданные файл docx


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Опции темы

Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! в-строка - входное арифметическое выражение в инфиксной(обычной). . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru