|
12 / 12 / 1
Регистрация: 22.12.2012
Сообщений: 26
|
||||||
Apache Lucene. Индексация больших файлов04.02.2016, 15:34. Показов 1691. Ответов 1
Метки нет (Все метки)
Использую либо Apache Lucene 5.4.1(последняя на данный момент) в IntelliJ IDEA 14.
Индексирую мелкие файлы огромными пачками (долго правда, но всё проходит норм). Файлов миллион плюс-минус пара десятков тысяч, объёмом не больше метра. Получился индекс в 2.7 Гб из 37 Гб изначального объёма файлов. Вопрос первый: почему IndexWriter не имеет метода optimize, который есть в .net реализации? Optimize полученный индекс складывает в меньшее количество файлов (после optimize в шарпе получалось около 10 файлов, а тут почти 40)? Вопрос второй: как индексировать огромные файлы? Допустим размер в 5-15 гигов. При индексации файлы занимают в оперативной памяти двукратный объём. Вот код метода индексирования одного файла:
0
|
||||||
| 04.02.2016, 15:34 | |
|
Ответы с готовыми решениями:
1
Apache Lucene Индексация файлов Индексация файлов |
|
12 / 12 / 1
Регистрация: 22.12.2012
Сообщений: 26
|
|
| 18.02.2016, 17:59 [ТС] | |
|
Если кому интересно, как была решена проблема.
Взял текстовый файл в 19 гигов и разбил поток на мелкие части, имитируя огромное количество маленьких файлов взамен этого большого. Сбор данных из потока для индексации собирался параллельно тому, как шла индексация прошлой части, чтобы не было лишних замедлений. Получилось 5.5 Гб за час работы. Optimize нет не случайно. Разработчики советовали никогда не использовать эту функцию (всех причин пока не выяснил, но это единственное объяснение). Похоже что-то не совсем хорошее проводилось при вызове этого метода.
0
|
|
| 18.02.2016, 17:59 | |
|
Помогаю со студенческими работами здесь
2
О размещении файлов на Apache О размещении файлов на Apache Hibernate и lucene Загрузка файлов на сервер! Apache 2.2.3 Странное кэширование файлов и Apache Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Символьное дифференцирование
igorrr37 13.02.2026
/ *
Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2).
Унарный минус обозначается как !
*/
#include <iostream>
#include <stack>
#include <cctype>. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога
Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
|
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
|