Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.83/6: Рейтинг темы: голосов - 6, средняя оценка - 4.83
0 / 0 / 0
Регистрация: 05.12.2019
Сообщений: 2

Как правильно парсить комментарии из docx, используя IronPython и .NET Framework (dotnet API)?

26.11.2020, 13:04. Показов 1427. Ответов 1

Студворк — интернет-сервис помощи студентам
Всем привет.

Пишу парсер для word-документов. Использую официальную Microsoft SDK (.NET API, .NET Framework, dotnet, Официальная документация) и IronPython2.7. Многие мои документы содержат в себе комментарии и исправления (комментарии добавляются через "INSERT->COMMENTS->NEW COMMENTS"). Мне необходимо спарсить документ так, чтобы я знал где начинается комментарий и где он заканчивается.

Я использую такой код:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# -*- coding: utf-8 -*-
import clr
import System
import json
clr.AddReference('Microsoft.Office.Interop.Word')
from Microsoft.Office.Interop import Word
 
filename = 'C:\\eng_ordinary_text.docx'
 
word_application = Word.ApplicationClass()
word_application.Visible = True
 
document = word_application.Documents.Open(filename)
 
text = document.Content.Text
for comment in document.Comments:
    print(comment.Scope.Start)
    print(comment.Scope.End)
    true_text = comment.Scope.Text
    text_with_offset = document.Content.Text[comment.Scope.Start:comment.Scope.End]
    print('scope_text:           "{}"'.format(true_text))
    print('text_between_indexes: "{}"'.format(text_with_offset))
    print('___________________\n')
Получаю такой ответ:

9
17
scope_text: "ordinary"
text_between_indexes: "ordinary"
___________________

19
23
scope_text: "text"
text_between_indexes: "ext."
___________________

На скриншоте (в прикрепленных файлах) видна проблема - если вывести тест документа между индексами комментария, то в первом комментарии все хорошо, а во втором уже заметно смещение на один символ. Сам пример документа также есть в прикрепленных файлах.

Поначалу это не сильно мешает, но когда документ на 30 и более страниц, то смещение может привести к ошибкам (например, когда в комментарии выделен всего один символ, пусть будет 'a'). Такая буква может встречать несколько раз. И нельзя будет точно сказать, какая их них была помечена в комментарии.

Это лишь малая часть. Потом возникают проблемы, когда индексы начала и конца комментария съезжаю не только вправа по строке, но и влево. Я две недели изучал документацию, думаю, что допустил ошибку. Но у меня не встретил возможные причины таких проблем.

Прошу помощи и заранее благодарю за нее.
Миниатюры
Как правильно парсить комментарии из docx, используя  IronPython и .NET Framework (dotnet API)?  
Вложения
Тип файла: docx eng_ordinary_text.docx (15.0 Кб, 0 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
26.11.2020, 13:04
Ответы с готовыми решениями:

Правильно ли парсить html или создать api
Всем привет! Есть сайт для заказа некоего товара, требуется написать приложение для него. Вопрос в следующем: что будет более...

Как удалить приложение dotNet Framework 1.0-2.0.-3.5 и прочие из операционной системы Windows XP
После удаления программы dotNet Framework 1.0-2.0.-3.5 при помощи программы Your Unistaller компьютер был перезагружен. При попытке вновь...

Как правильно объявлять API в VB .NET
Как объявить на VB.net? Private Declare Sub mouse_event Lib "user32" (ByVal dwFlags As Long, ByVal dx As Long, ByVal dy As Long, ByVal...

1
Эксперт .NET
 Аватар для Usaga
14314 / 9399 / 1355
Регистрация: 21.01.2016
Сообщений: 35,437
27.11.2020, 08:19
Цитата Сообщение от Anfisa_78 Посмотреть сообщение
Использую официальную Microsoft SDK
На самом деле, для работы с DOCX (не DOC, а именно DOCX) лучше бы использовать OpenXML SDK. Эта библиотека тоже официальная, от MS. И работает она напрямую с файлом документа, без необходимости иметь на машине MS Office.

Цитата Сообщение от Anfisa_78 Посмотреть сообщение
IronPython2.7
А почему не C#, если уж тянет на майкрософтовские технологии?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
27.11.2020, 08:19
Помогаю со студенческими работами здесь

dotnet DocX библиотека и работа с ней
Доброго дня! Скачал библиотеку для работы с docx. Сразу столкнулся с проблемой. private void bAdd_Click(object...

dotnet DocX библиотека и работа с ней
Доброго дня! Скачал библиотеку для работы с docx. Сразу столкнулся с проблемой. private void bAdd_Click(object...

В списке Target Framework не выбирается .NET Framework 4 только .NET Framework 4 Client Profile
Свойства проекта (Project -> Properties) -> вкладка Compile -> Advenced complie options -> в списке Target Framework не выбирается .NET...

Как с htmlagilitypack парсить комментарии к коду?
Нужно парсить текст находящийся в тегах <!-- -->

Запуск приложения на платформе .NET Framework 4.0, на другом компьютере без установки .NET Framework 4.0
Как запустить приложение на платформе .NET Framework 4.0, на другом компьютере без установки .NET Framework 4.0?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru