|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
Выгрузить табличные данные со страницы html03.01.2020, 13:48. Показов 11887. Ответов 35
Здравствуйте!
Очень надо получить данные со страницы, так как разработчик не будет скорее всего дорабатывать выгрузку в Excel, а сама выгрузка не включает некоторых (как-будто пустых) данных, а они нужны. Я думала, что смогу выгрузить данные напрямую в Excel или Power Bi, но это не получилось. Это моя тема в другом разделе: Выгрузка страницы в виде таблицы в Excel или Power BI. Затем друг посоветовал применить Python и parsing. Начала погружаться глубже, установила BeautifulSoup, но как я вижу по тексту, получаемому из requests.get (url, auth = (user, pass), я опять не получаю весь код страницы (поэтому и не сработали советы, которые я находила для Power Bi, а именно доныривания до нужного <div) и я не могу пока получить данные с помощью кода:
Смогу ли я с помощью python выгрузить данные или надо искать другие решения? Могут ли данные быть скрыты? На форуме видела ответы про CSS Selectorы - могут ли они помочь?
0
|
||||||
| 03.01.2020, 13:48 | |
|
Ответы с готовыми решениями:
35
Как вытащить табличные данные из HTML страницы? Как проще всего выгрузить таблицу с HTML страницы в DataGridView Выгрузить данные из html таблицы в в Excel |
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
||||||
| 03.01.2020, 15:35 | ||||||
|
попробуйте такой вариант, будут ли в нем ваши данные
я супом не пользуюсь, но КМК у вас в тексте нет аттрибута 'id', есть 'class'
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 03.01.2020, 19:04 [ТС] | ||||||
|
я попробовала, пока опять ничего не произошло.. я же правильно поняла, что data - это уже полученный html текст отсюда?
по элементно я могу нажать inspect и увидеть код, но выгрузить его пока не могу(
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
||||||
| 03.01.2020, 19:21 | ||||||
|
data здесь res.text, покажите его
возможно страница динамическая и get-запросом сервер не выдает Добавлено через 11 минут то что тэги вложены - не то, парсер увидит все тэги
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 03.01.2020, 19:55 [ТС] | ||||||
|
Я теперь ещё раз полазила и почти уверена, что код в одном месте написан, то есть посмотрев один элемент,я могу и остальные раскрыть, поэтому надеюсь, что страница не динамическая, но в тексте полная белебирда видна.
может быть проблема в том, что мне надо ещё авторизоваться, поэтому в супе я могла написать user и password, а в lxml я не могу так сделать? По одному и тому же адресу под разными логинами я вижу разную информацию!...
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
|
| 03.01.2020, 20:02 | |
|
авторизация идет через requests, суп и lxml - парсинг полученного текста
https://python-scripts.com/requests
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|||||||||||
| 04.01.2020, 11:03 [ТС] | |||||||||||
|
Теперь я думаю, что может всё-таки динамически, раз я не могу получить данные. В sources в одном месте написано
*белиберда (выше в сообщении, а то исправить его уже не могу) Добавлено через 40 минут мне видимо надо selenium разбирать...
0
|
|||||||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
|
| 04.01.2020, 13:19 | |
|
на javascript форуме, но точно сказать трудно, надо копать
Добавлено через 8 минут если вы в браузере ланные ваши видите, можно сохранить в файл потом распарсить. а автоматом - нада в инспекторе network смотреть какой запрос идет на получение данных
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 04.01.2020, 22:52 [ТС] | ||||||
|
да, я как раз смотрела тут Парсер таблицы
нашла network, но всё боялась нажать ctrl +R.. вроде что-то выгрузилось, но всё таки пока ещё не то, что надо..
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
|
| 04.01.2020, 23:11 | |
|
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 18:23 [ТС] | ||||||
|
sess = requests.Session()
data = {"login":"name", "password":"secret"} url = "address" res = sess.post(url, data=data) print(res.content) выходит вот что - ничего похожего на то, что я вижу в html и написано там forbidden, может ли быть так, что доступ нельзя просто так получить к коду?
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
||||||
| 08.01.2020, 20:06 | ||||||
|
ставьте тэг HTML в коде
сервер вам говорит - вход запрещен вот вам пример с selenium
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 20:20 [ТС] | ||||||
|
Спасибо! Я сейчас попробую к себе приспособить, ещё вот что нашла, думала использую
https://stackoverflow.com/ques... er-postman Код из ответа:
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
||||||
| 08.01.2020, 20:27 | ||||||
Сообщение было отмечено Eliy как решение
Решение
КМК вам с selenium проще будет, можно в браузере видеть результат
Добавлено через 2 минуты
1
|
||||||
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
||||||
| 08.01.2020, 21:45 [ТС] | ||||||
|
честно говоря, я пока застряла, так как у меня хром, я написала ему Chrome(), он наругался, что ChromeDrivera у него нет...
WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chr... river/home я пошла по ссылке, он открыл cmd и написал: Starting ChromeDriver 79.0.3945.36 (3582db32b33893869b8c1339e8f4d9ed1816f14 3-refs/branch-heads/3945@{#614}) on port 9515 Only local connections are allowed. Please protect ports used by ChromeDriver and related test frameworks to prevent access by malicious code. зато я поняла, в виде какой таблицы у меня данные.. и мне просто надо по классам пройтись одним и тем же... и я наконец достала данные таблицы, нажав Copy outerHTML table-widget ver-flex-parent shift-assign-table то есть мне надо внутри неё пробежаться как-то...
0
|
||||||
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
|
| 08.01.2020, 22:09 | |
Сообщение было отмечено Eliy как решение
Решение
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|
| 08.01.2020, 22:18 [ТС] | |
|
да, сорри, данные не могу показать, я и так много выкладываю, но данные примерные можно увидеть на принтскринах выше, где я замазывала конкретные места, то есть в целом это то, что мне надо обработать/получить и до текущего момента я даже не могла это получить в текстовом виде, а теперь оно у меня полностью есть без необходимости нажимать на треугольнички и раскрывать, и я рада, хотя там и пока много ещё лишних div, span
0
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|
| 08.01.2020, 22:37 [ТС] | |
|
и Xpath теперь нашла к таблице!
/html/body/div[1]/div/div[2]/div/div/div[2]/div[2]/div
0
|
|
|
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
|
|
| 08.01.2020, 22:52 | |
|
можно проще
//span[@class="time-start"] //span[@class="time-end"]
1
|
|
|
0 / 0 / 0
Регистрация: 08.06.2015
Сообщений: 38
|
|||||||
| 09.01.2020, 12:28 [ТС] | |||||||
|
почти, но пока нет результата итогого(((
он опять ругается..
0
|
|||||||
| 09.01.2020, 12:28 | |
|
Помогаю со студенческими работами здесь
20
Нужно макросом выгрузить данные из страницы интернета Как выгрузить данные из мемо поля базы Access в Html с сохранением переноса строки ?
Получить данные со страницы HTML Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
|
Оттенки серого
Argus19 18.03.2026
Оттенки серого
Нашёл в интернете 3 прекрасных модуля:
Модуль класса открытия диалога открытия/ сохранения файла на Win32 API;
Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
|
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога
Финальные проекты на Си и на C++:
finish-rectangles-sdl3-c. zip
finish-rectangles-sdl3-cpp. zip
|
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие.
Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
|
|
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ВВЕДЕНИЕ
Выполняя задание на управление насосной группой заполнения резервуара,. . .
|
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
|
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога
Финальные проекты на Си и на C++:
hello-sdl3-c. zip
hello-sdl3-cpp. zip
Результат:
|
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога
MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
|