6 / 3 / 2
Регистрация: 21.02.2010
Сообщений: 84
|
|
1 | |
.NET 4.x Поиск текста в документах MS Office20.01.2012, 02:52. Показов 6917. Ответов 8
Метки нет (Все метки)
В общем есть библиотека документов,мне нужно организовать поиск текста по каждому документу и с возможностью подсчета совпадений...знаю что в Microsoft.Office.Interop.Word; реализован поиск..только он открывает каждый документ и долго думает...в общем помогите сделать это быстро и просто если можно))
0
|
20.01.2012, 02:52 | |
Ответы с готовыми решениями:
8
Поиск текста в документах Word Поиск и замена текста в документах Word Microsoft.Office.Interop.Word поиск текста Замена текста в doc документах |
179 / 175 / 14
Регистрация: 17.01.2011
Сообщений: 349
|
|
20.01.2012, 10:11 | 2 |
Судя по всему, поиск требуется реализовать по .doc и .docx файлам?
Для поиска по .doc файлам лучше воспользоваться таким: http://www.codeproject.com/KB/cs/getwordtext.aspx или подобным способом. Поиск по .docx реализуется проще - распаковываем его через стандартный GZipStream и ищем по содержимому "document.xml".
1
|
6 / 3 / 2
Регистрация: 21.02.2010
Сообщений: 84
|
|
20.01.2012, 17:28 [ТС] | 3 |
Спасибо...с первым моментом разобрался,со вторым не понятно,знаю GZipStream,но что значит ищем по содержимому "document.xml"
0
|
179 / 175 / 14
Регистрация: 17.01.2011
Сообщений: 349
|
|
20.01.2012, 17:40 | 4 |
Файлы .docx - обычные архивы с кучей xml внутри. Нужно распаковать файл любым удобным способом (вариант с GZipStream - не самый удобный, надо сказать) и прочитать содержимое "document.xml", где лежит текст из файла.
0
|
20.01.2012, 18:14 | 5 | |||||
это правда xml, но просто для поиска текста его использовать сложно, потому что там может оказаться сложное разбиение.
наприме был такой файлик а получилось такой xml
0
|
40 / 40 / 3
Регистрация: 08.01.2012
Сообщений: 96
|
|
20.01.2012, 18:17 | 6 |
А разве в Open XML SDK нет поддержки таких функций?
1
|
179 / 175 / 14
Регистрация: 17.01.2011
Сообщений: 349
|
|
20.01.2012, 18:28 | 7 |
turbanoff, это валидный XML, достаточно удалить все теги, чтобы получить исходный текст.
0
|
2735 / 2041 / 380
Регистрация: 22.07.2011
Сообщений: 7,731
|
|
21.01.2012, 13:44 | 8 |
http://msdn.microsoft.com/en-u... 78255.aspx
http://msdn.microsoft.com/en-u... .text.aspx -в общем смысл таков, получаешь Body документа, там тянешь нужный параграф, пробегаешься по Run обьектам, и для каждого тянешь свойство text. В твоем случае один параграф и три Run обьекта. З.Ы А вообще можно забить на OpenXML и делать через обычный XDocument + Regex.
1
|
6 / 3 / 2
Регистрация: 21.02.2010
Сообщений: 84
|
|
21.01.2012, 21:49 [ТС] | 9 |
Спасибо всем))...я тут обнаружил что у меня и PDF есть,его то как сканировать не подскажите,иначе я умру
0
|
21.01.2012, 21:49 | |
21.01.2012, 21:49 | |
Помогаю со студенческими работами здесь
9
Программа для поиска текста в документах Программное форматирование текста в документах Word Поиск в документах по реквизиту Поиск в документах Word Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |