С Новым годом! Форум программистов, компьютерный форум, киберфорум
Программирование Android
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.86/7: Рейтинг темы: голосов - 7, средняя оценка - 4.86
 Аватар для dajver
411 / 275 / 22
Регистрация: 18.09.2010
Сообщений: 1,114

Вытащить из сайта определенную таблицу

20.03.2015, 15:24. Показов 1595. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет, я тут заморочился одной фигней, нужно спарсить страницу сайта и достать из нее только таблицу. Я сделал что бы вытаскивало кусок по айдишнику, но jsoup не хочет хватать вот такой айдишник top-team-stats-summary-grid, нужно спарсить вот этот сайт http://www.whoscored.com/Statistics. Как я не пытался таблицу статистики вытащить никак не получается, может кто даст какой совет?)

вот код как я делаю парсинг
Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
new Thread(new Runnable() {
            public void run() {
                final String newPage;
                try {
                    Document doc = Jsoup.connect("http://www.whoscored.com/Statistics").get();
                    Elements newsRawTag = doc.select("#top-team-stats-summary-grid");
                    newPage = newsRawTag.html();
                    HtmlCleaner cleaner = new HtmlCleaner();
                    CleanerProperties props = cleaner.getProperties();
                    final TagNode tagNode = new HtmlCleaner(props).clean(newPage);
                    final SimpleHtmlSerializer htmlSerializer =
                            new SimpleHtmlSerializer(props);
                    webview.post(new Runnable() {
                        @Override
                        public void run() {
                            webview.loadDataWithBaseURL(null, htmlSerializer.getAsString(tagNode), "text/html", "charset=UTF-8", "about:blank");
                        }
                    });
                } catch (ClientProtocolException e) {
                    e.printStackTrace();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
         }).start();
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
20.03.2015, 15:24
Ответы с готовыми решениями:

Вытащить таблицу с данными с сайта
Нужно связаться с сайтом на С#. Возможно ли? Если да то нужно вытащить таблицу с данными. какие данные нужны для подключения к бд сайта?...

из текст. ячейки вытащить определенную информацию
Подскажите пожалуйста, как из текстовой ячейки вытащить информацию по списку знаков (разделителей), формулой можно это сделать но список...

Как вытащить определенную ячейку из датагрида
Второй день мучаюсь не могу понять как эту выбранную ячейку вытащить. Есть датагрид в которую грузится бд <DataGrid...

9
3 / 27 / 2
Регистрация: 23.10.2013
Сообщений: 2,331
20.03.2015, 17:03
а через HttpClient нельзя и распарсить JSON ответа?? Пробовал так??
1
400 / 343 / 85
Регистрация: 17.10.2014
Сообщений: 1,015
20.03.2015, 17:03
dajver, никогда ничего не парсил, но стало интересно(футбол, все дела))
вот что заметил, мож поможет - если можно спарсить элементы которые отображаются в коде("Просмотреть код страницы" в хроме)...элементы которые отображаются в "Просмотр код элемента" не парсятся(генерятся JavaScriptом)...эт как я для себя понял)
Для эксперимента попробуйте спарсить:
Java
1
Elements newsRawTag = doc.select("#overall-formation-weekly-content");
1
914 / 562 / 88
Регистрация: 13.02.2014
Сообщений: 2,082
20.03.2015, 18:42
Цитата Сообщение от dajver Посмотреть сообщение
но jsoup не хочет хватать вот такой айдишник top-team-stats-summary-grid
А может там такого id и нет? Я не нашел.
1
 Аватар для dajver
411 / 275 / 22
Регистрация: 18.09.2010
Сообщений: 1,114
20.03.2015, 23:22  [ТС]
Цитата Сообщение от yura91 Посмотреть сообщение
а через HttpClient нельзя и распарсить JSON ответа?? Пробовал так??
Как мне получить оттуда json ?) Что то я вас не совсем понимаю

Цитата Сообщение от androbro Посмотреть сообщение
dajver, никогда ничего не парсил, но стало интересно(футбол, все дела))
вот что заметил, мож поможет - если можно спарсить элементы которые отображаются в коде("Просмотреть код страницы" в хроме)...элементы которые отображаются в "Просмотр код элемента" не парсятся(генерятся JavaScriptом)...эт как я для себя понял)
Я же так и делаю) Нашел айдишник который мне нужен и пытался тянуть таблицу, но ничего не выводится, айдишник что я привел в вопросе не находит...

Цитата Сообщение от Rube Посмотреть сообщение
А может там такого id и нет? Я не нашел.
http://data3.floomby.com/files... 55I0kw.jpg
0
914 / 562 / 88
Регистрация: 13.02.2014
Сообщений: 2,082
21.03.2015, 19:51
А если так
Миниатюры
Вытащить из сайта определенную таблицу  
1
400 / 343 / 85
Регистрация: 17.10.2014
Сообщений: 1,015
21.03.2015, 20:29
dajver,
Цитата Сообщение от dajver Посмотреть сообщение
http://data3.floomby.com/files/share...5WlP55I0kw.jpg
если нажать в хроме "Просмотр кода страницы", то вы top-team-stats-summary-grid не найдете, меня тоже это немного сбило с толку(вот как раз таки из этого кода можно парсить по айдишникам)
"Просмотр кода элемента"- айдишники отсюда не парсятся
Как я понял, в первом случае как я понимаю отображается каркас страницы без отработки скриптов, во втором уже сгенерированная скриптами страница.
1
 Аватар для dajver
411 / 275 / 22
Регистрация: 18.09.2010
Сообщений: 1,114
21.03.2015, 22:45  [ТС]
То есть спарсить страницу не выйдет? Оно генерирует новые айдишники каждый раз когда заходишь на сайт?
0
400 / 343 / 85
Регистрация: 17.10.2014
Сообщений: 1,015
21.03.2015, 22:56
dajver,
Цитата Сообщение от dajver Посмотреть сообщение
То есть спарсить страницу не выйдет?
как я уже писал опыта парсить у меня нет, но неразрешимых ситуаций нет
Цитата Сообщение от dajver Посмотреть сообщение
Оно генерирует новые айдишники каждый раз когда заходишь на сайт?
нет, айдишники всегда теже.
они просто динамически генерируются наверн
1
 Аватар для dajver
411 / 275 / 22
Регистрация: 18.09.2010
Сообщений: 1,114
22.03.2015, 13:35  [ТС]
Ну раз они генерируются динамически то и впоймать нужный возможности нет) нужно парсить все страницу и выкусывать кусок который не генерируется динамически, это я единственный способ вижу такой...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.03.2015, 13:35
Помогаю со студенческими работами здесь

Колода с картами, вероятность вытащить определенную
Здравствуйте, подскажите, правильно ли решаю. Из полной колоды случайным образом вынимается карта. Найти вероятность того, что вытащили...

Нужно вытащить определенную часть текста из файла.
така ситуация: есть текстовый файл, в котором есть уникальное, периодически повторяющееся слово. Файл размером килобайт 300. Так вот, мне...

С компонента DBLookupComboBox1 выбрать определённую таблицу
Подскажите пожалуйста какой должен быть запрос для того что-бы: При выборе из компонента DBLookupComboBox1 (например выбора Ф.И.О...

Экспорт таблицы из Access в определенную таблицу Excel
Добрый день. Интересует такой вопрос, можно ли определенную таблицу из Access экспортировать в определенную, заранее созданную таблицу...

Статическая страница в определенную часть сайта
Как правильно встроить статическую страницу созданную в дле в часть сайта ,чтобы подгружался контент из нее.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru