|
0 / 0 / 0
Регистрация: 09.10.2014
Сообщений: 7
|
||||||
Многопоточный HTML Парсер26.11.2014, 23:42. Показов 2672. Ответов 2
Метки нет (Все метки)
Суть задачи состоит в том чтобы парсить html по ссылке на наличие email-ов, в случае наличия таковых, выводим ссылку и email-ы которые нашли на ней, потом парсим эту же ссылку на наличие других ссылок, и для этих ссылок проводим аналогичные дейтсвия, по получившим ссылкам опять те же действия. В моем случае все закончиться только тогда когда закончатся уникальные ссылки, пока есть уникальные ссылки мы будем создавать для них новые задачи. Использую ThreadPoolExecutor для обработки ссылок.
Проблема: Как реализовать контроль глубины поиска, то есть если я хочу чтобы глубина поиска была равна 2, то для первой ссылки, мы парсим mail-ы, потом другие ссылки, а для других ссылок парсим mail-ы и на этом все, новые задачи не создаются. Еще одна проблема заключается в выполнении shutdown(). Мне нужен какой-то аналог который не блокирует создания новых задач, и вырубает пул только тогда, когда все задачи отработаны, и пул пуст. Или может какой-то другой подход, но чтобы он был не блокирующим. Возможны другие предложения по организации данного процесса. Код:
Короче тема закрыта, все решил.
0
|
||||||
| 26.11.2014, 23:42 | |
|
Ответы с готовыми решениями:
2
Многопоточный .csv парсер
Парсер html на java |
|
|
||||
| 26.11.2014, 23:58 | ||||
|
Ваш lock тогда можно выкинуть. Если вам надо сгруппировать email-ы с каждой страницы - просто добавить их сначала в локальный StringBuilder, а потом одним запросом SwingUtilities добавите в outcomeTextArea Не по теме: PS. Спамеры должны гореть в аду :) Добавлено через 6 минут Еще заметил проблему: LinkedHashSet - не потоко-безопасная коллекция. Нельзя просто так вызывать add на нем из разных потоков - огребёте проблем. Замените его на ConcurrentHashMap или Collections.newSetFrom(new ConcurrentHashMap<String,Boolean>()) или Collections.synchronizedSet(new LinkedHashSet<String>());
1
|
||||
|
0 / 0 / 0
Регистрация: 09.10.2014
Сообщений: 7
|
|
| 27.11.2014, 18:57 [ТС] | |
|
Спасибо, по компонентам, вроде знал, но затупил ибо новичек. По поводу глубины, так и решил. Все остальное буду исправлять, еще раз спасибо.
0
|
|
| 27.11.2014, 18:57 | |
|
Помогаю со студенческими работами здесь
3
парсер html страницы
Многопоточный парсер Многопоточный парсер по ftp Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога
Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
|
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
|
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога
В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
|
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
|
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога
Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
|
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
|
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования.
Часть библиотеки BedvitCOM
Использованы. . .
|
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога
SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
|