Форум программистов, компьютерный форум, киберфорум
Java SE (J2SE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 13.03.2022
Сообщений: 1

ForkJoinPool + Selenium Web Driver (в многопоточном режиме сформировать карту сайта в виде списка ссылок)

13.03.2022, 21:01. Показов 3571. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
При помощи Selenium Web Driver в однопоточном режиме карта формируется. В методе Main этот вариант закоментирован. Непонятно где ошибка в классе ForkJoinParser.

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
import java.util.*;
import java.util.concurrent.ForkJoinPool;
 
public class Main {
    public static void main(String[] args)  {
        String targetLink = "https://www.f1-world.ru/";
 
//        List<String> listWithLinks1 = Parser.parseUrl(targetLink);
//        Writer.writeSitemap(listWithLinks1);
 
        ForkJoinParser parserFJ = new ForkJoinParser(targetLink);
        ForkJoinPool pool = new ForkJoinPool();
        pool.invoke(parserFJ);
        List<String> listFJ = new ArrayList<>(parserFJ.getLinksSet());
        Writer.writeSitemap(listFJ);
    }
}
 
 
import io.github.bonigarcia.wdm.WebDriverManager;
import org.apache.log4j.BasicConfigurator;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import java.util.*;
import java.util.concurrent.TimeUnit;
 
public class Parser {
    static WebDriver driver;
    public static List<String> parseUrl(String link) {
        BasicConfigurator.configure();
        WebDriverManager.chromedriver().setup();
        driver = new ChromeDriver();
 
        try {
            Thread.sleep(150);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
 
        driver.get(link);
        driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
 
        Set<String> linksSet = new TreeSet<>();
        String stringWithLink;
        for(WebElement element : driver.findElements(By.xpath("//a"))) {
            stringWithLink = element.getAttribute("href");
            if(linksSet.contains(stringWithLink)) continue;
            linksSet.add(stringWithLink);
        }
        driver.quit();
 
        List<String> listLinks = new ArrayList<>(linksSet);
        StringBuffer stringBuffer;
        for (int i = 0; i < listLinks.size(); i++) {
            int count = 0;
            String s = listLinks.get(i);
            for (char element : s.toCharArray()) {
                if (element == '/') count++;
            }
            stringBuffer = new StringBuffer(listLinks.get(i));
            for (int j = 0; j < count - 2; j++) {
                stringBuffer.insert(0, '\t');
            }
            listLinks.set(i, stringBuffer.toString());
        }
        return listLinks;
    }
}
 
 
import io.github.bonigarcia.wdm.WebDriverManager;
import org.apache.log4j.BasicConfigurator;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import java.util.*;
import java.util.concurrent.RecursiveAction;
import java.util.concurrent.RecursiveTask;
 
public class ForkJoinParser extends RecursiveAction {
    private static WebDriver driver;
    private String link;
    private Set<String> linksSet = new TreeSet<>();
 
    ForkJoinParser(String link) {
        this.link = link;
        BasicConfigurator.configure();
        WebDriverManager.chromedriver().setup();
        driver = new ChromeDriver();
        try {
            Thread.sleep(150);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
 
    public String getLink() {
        return link;
    }
 
    public Set<String> getLinksSet() {
        return linksSet;
    }
 
    List<ForkJoinParser> subTasks = new LinkedList<>();
    String stringWithLink;
 
    @Override
    protected void compute() {
        driver.get(link);
        for (WebElement element : driver.findElements(By.xpath("//a"))) {
            stringWithLink = element.getAttribute("href");
            if(linksSet.contains(stringWithLink)) continue;
            ForkJoinParser fParser = new ForkJoinParser(stringWithLink);
            fParser.fork();
            subTasks.add(fParser);
        }
        for (ForkJoinParser fJParser : subTasks) {
            linksSet.add(String.valueOf(fJParser.join()));
        }
        driver.quit();
    }
}
 
 
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
 
public class Writer {
    public static void writeSitemap (List<String> listForWrite) {
        try {
            Files.write(Paths.get("src/main/resources/sitemap.txt"), listForWrite);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
13.03.2022, 21:01
Ответы с готовыми решениями:

Selenium Web Driver
:wall: Делаю так уже дня 4 не могу и все равно не могу понять... Ситуация такая: передаю в WebElement такую шнягу: &lt;a...

Selenium web driver
Добрый день! Подскажите рабочий способ предотвращения появления надписи &quot;Браузером Chrome управляет автоматизированное тестовое ПО.&quot;...

Python 2.7 + selenium web driver + mailru
Приветствую, товарищи. Пишу парсер мейл.ру и для удобства и экономии ресурсов пытают сделать повторный логи на мейл.ру через cookie, делаю...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
13.03.2022, 21:01
Помогаю со студенческими работами здесь

Преобразование в int (Selenium web driver)
не могу преобразовать из селениума в INT &quot;OpenQA.Selenium.Remote.WebElement к типу System.Iconvertible и как сделать задержку ??? ...

Не подтягивается dependency для selenium web driver
в файле pom.xml не подтягивается dependency для selenium webdriver, значения выделяются красным в чем может быть проблема? ...

Selenium Web Driver. Поиск элемента по тексту
Вопрос предельно простой: Как найти элемент, по этому тексту Пробовал так: ... FindElements(By.LinkText(&quot;Рекламодатель...

Selenium Web Driver. Получение курса валют
using System; using System.Windows.Forms; using OpenQA.Selenium; using OpenQA.Selenium.Chrome; using System.Threading; using...

Запуск и отключение компьютера Selenium Web Driver
Добрый день. Суть в следующем: хотелось бы запускать файл питон каждый час, включая ночь. Как это представляется: компьютер в спящем...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Данные берутся из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru