|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
Выгрузить табличные данные со страницы html03.01.2020, 13:48. Показов 11821. Ответов 35
Здравствуйте!
Очень надо получить данные со страницы, так как разработчик не будет скорее всего дорабатывать выгрузку в Excel, а сама выгрузка не включает некоторых (как-будто пустых) данных, а они нужны. Я думала, что смогу выгрузить данные напрямую в Excel или Power Bi, но это не получилось. Это моя тема в другом разделе: Выгрузка страницы в виде таблицы в Excel или Power BI. Затем друг посоветовал применить Python и parsing. Начала погружаться глубже, установила BeautifulSoup, но как я вижу по тексту, получаемому из requests.get (url, auth = (user, pass), я опять не получаю весь код страницы (поэтому и не сработали советы, которые я находила для Power Bi, а именно доныривания до нужного <div) и я не могу пока получить данные с помощью кода:
Смогу ли я с помощью python выгрузить данные или надо искать другие решения? Могут ли данные быть скрыты? На форуме видела ответы про CSS Selectorы - могут ли они помочь?
0
|
||||||
| 03.01.2020, 13:48 | |
|
Ответы с готовыми решениями:
35
Как вытащить табличные данные из HTML страницы? Как проще всего выгрузить таблицу с HTML страницы в DataGridView Выгрузить данные из html таблицы в в Excel |
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
||||||
| 03.01.2020, 15:35 | ||||||
|
попробуйте такой вариант, будут ли в нем ваши данные
я супом не пользуюсь, но КМК у вас в тексте нет аттрибута 'id', есть 'class'
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 03.01.2020, 19:04 [ТС] | ||||||
|
я попробовала, пока опять ничего не произошло.. я же правильно поняла, что data - это уже полученный html текст отсюда?
по элементно я могу нажать inspect и увидеть код, но выгрузить его пока не могу(
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
||||||
| 03.01.2020, 19:21 | ||||||
|
data здесь res.text, покажите его
возможно страница динамическая и get-запросом сервер не выдает Добавлено через 11 минут то что тэги вложены - не то, парсер увидит все тэги
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 03.01.2020, 19:55 [ТС] | ||||||
|
Я теперь ещё раз полазила и почти уверена, что код в одном месте написан, то есть посмотрев один элемент,я могу и остальные раскрыть, поэтому надеюсь, что страница не динамическая, но в тексте полная белебирда видна.
может быть проблема в том, что мне надо ещё авторизоваться, поэтому в супе я могла написать user и password, а в lxml я не могу так сделать? По одному и тому же адресу под разными логинами я вижу разную информацию!...
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
|
| 03.01.2020, 20:02 | |
|
авторизация идет через requests, суп и lxml - парсинг полученного текста
https://python-scripts.com/requests
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|||||||||||
| 04.01.2020, 11:03 [ТС] | |||||||||||
|
Теперь я думаю, что может всё-таки динамически, раз я не могу получить данные. В sources в одном месте написано
*белиберда (выше в сообщении, а то исправить его уже не могу) Добавлено через 40 минут мне видимо надо selenium разбирать...
0
|
|||||||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
|
| 04.01.2020, 13:19 | |
|
на javascript форуме, но точно сказать трудно, надо копать
Добавлено через 8 минут если вы в браузере ланные ваши видите, можно сохранить в файл потом распарсить. а автоматом - нада в инспекторе network смотреть какой запрос идет на получение данных
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 04.01.2020, 22:52 [ТС] | ||||||
|
да, я как раз смотрела тут Парсер таблицы
нашла network, но всё боялась нажать ctrl +R.. вроде что-то выгрузилось, но всё таки пока ещё не то, что надо..
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
|
| 04.01.2020, 23:11 | |
|
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 18:23 [ТС] | ||||||
|
sess = requests.Session()
data = {"login":"name", "password":"secret"} url = "address" res = sess.post(url, data=data) print(res.content) выходит вот что - ничего похожего на то, что я вижу в html и написано там forbidden, может ли быть так, что доступ нельзя просто так получить к коду?
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
||||||
| 08.01.2020, 20:06 | ||||||
|
ставьте тэг HTML в коде
сервер вам говорит - вход запрещен вот вам пример с selenium
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 20:20 [ТС] | ||||||
|
Спасибо! Я сейчас попробую к себе приспособить, ещё вот что нашла, думала использую
https://stackoverflow.com/ques... er-postman Код из ответа:
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
||||||
| 08.01.2020, 20:27 | ||||||
Сообщение было отмечено Eliy как решение
Решение
КМК вам с selenium проще будет, можно в браузере видеть результат
Добавлено через 2 минуты
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 21:45 [ТС] | ||||||
|
честно говоря, я пока застряла, так как у меня хром, я написала ему Chrome(), он наругался, что ChromeDrivera у него нет...
WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chr... river/home я пошла по ссылке, он открыл cmd и написал: Starting ChromeDriver 79.0.3945.36 (3582db32b33893869b8c1339e8f4d9ed1816f14 3-refs/branch-heads/3945@{#614}) on port 9515 Only local connections are allowed. Please protect ports used by ChromeDriver and related test frameworks to prevent access by malicious code. зато я поняла, в виде какой таблицы у меня данные.. и мне просто надо по классам пройтись одним и тем же... и я наконец достала данные таблицы, нажав Copy outerHTML table-widget ver-flex-parent shift-assign-table то есть мне надо внутри неё пробежаться как-то...
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
|
| 08.01.2020, 22:09 | |
Сообщение было отмечено Eliy как решение
Решение
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|
| 08.01.2020, 22:18 [ТС] | |
|
да, сорри, данные не могу показать, я и так много выкладываю, но данные примерные можно увидеть на принтскринах выше, где я замазывала конкретные места, то есть в целом это то, что мне надо обработать/получить и до текущего момента я даже не могла это получить в текстовом виде, а теперь оно у меня полностью есть без необходимости нажимать на треугольнички и раскрывать, и я рада, хотя там и пока много ещё лишних div, span
0
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|
| 08.01.2020, 22:37 [ТС] | |
|
и Xpath теперь нашла к таблице!
/html/body/div[1]/div/div[2]/div/div/div[2]/div[2]/div
0
|
|
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,763
|
|
| 08.01.2020, 22:52 | |
|
можно проще
//span[@class="time-start"] //span[@class="time-end"]
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|||||||
| 09.01.2020, 12:28 [ТС] | |||||||
|
почти, но пока нет результата итогого(((
он опять ругается..
0
|
|||||||
| 09.01.2020, 12:28 | |
|
Помогаю со студенческими работами здесь
20
Нужно макросом выгрузить данные из страницы интернета Как выгрузить данные из мемо поля базы Access в Html с сохранением переноса строки ?
Получить данные со страницы HTML Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
|
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма).
На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
|
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ *
Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам
Кирхгофа, решает её и находит переходные токи и напряжения на элементах схемы. . . .
|
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым.
Но восстановить их можно так.
Для этого понадобится консольная утилита. . .
|
|
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
|
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11
— это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
|
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11
Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
|
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
|