Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.71/7: Рейтинг темы: голосов - 7, средняя оценка - 4.71
0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4

Парсинг \ Изьять информацию из скрипта

03.06.2014, 15:46. Показов 1431. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Имеется страница сайта вот с таким содержанием

часть кода
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<div class='text ab_simple'>
хххххххххххххххххххххххххххххх
<br>
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267207'></span>
</span>
</div>
<div class='text ab_simple'>
ххххххххххххххххххххххххххххххххх
<br>
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267208'></span>
</span>
мне нужно получить номер телефона вот из этой части
HTML5
1
2
3
4
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267208'></span>
</span>
Помогите советом, люди добрые
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.06.2014, 15:46
Ответы с готовыми решениями:

Парсинг и URL скрипта
Коллеги, здравствуйте. Стоит задача спарсить страницы: Данные этих страниц доступны в Собственно проблем не вижу, кроме...

Парсинг параменров скрипта
Приветствую, есть проблема: Скрипт принимает параметр, которы может быть задан 2 способами -h, и -h=subst. Параметры принимаю getopt: ...

Парсинг html страницы и исполнение скрипта на ajax
Помогите пожалуйста сделать скрипт/программу чайнику! Я примерно представляю, как она должна работать, но не знаю как это реализовать. 1....

6
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 17:58
zalexz94, думаю задам вопрос тупой, но всё же... между какими тегами находится номер телефона? между вторыми тегами span? или он типа как гифка здесь представлен???
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
03.06.2014, 18:05
zalexz94, Скачиваешь страничку с помощью библиотеки requests, с помощью lxml.html парсишь скачанную страницу.
В lxml.html очень просто получить данные, указав с помощью css селектора откуда нужно получить данные.
0
0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4
03.06.2014, 18:49  [ТС]
Цитата Сообщение от Zarex Посмотреть сообщение
думаю задам вопрос тупой, но всё же... между какими тегами находится номер телефона? между вторыми тегами span? или он типа как гифка здесь представлен???
что бы появился номер нужно нажать на
HTML5
1
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
но он храниться в
HTML5
1
<span id='pad_contacts_267208'></span>
Добавлено через 34 секунды
Цитата Сообщение от tsar925 Посмотреть сообщение
Скачиваешь страничку с помощью библиотеки requests, с помощью lxml.html парсишь скачанную страницу.
В lxml.html очень просто получить данные, указав с помощью css селектора откуда нужно получить данные.
а поподробнее можно, я новичок в питоне
0
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 19:18
zalexz94, посмотри здесь и здесь то что советовал tsar925.
вот пример c lxml. С requests я не работал.
lxml поковырял и вытянул так(хотя коряво):
Python
1
2
3
4
5
import lxml.html
doc = lxml.html.parse('example.html')#сюда я так понял можно и урл пихать
for el in doc.xpath("//span[@id]"):
    if el.attrib['id'][:12] == 'pad_contacts':
        print el.text
0
0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4
03.06.2014, 19:54  [ТС]
а вот мне на другом форуме подсказали
Python
1
2
3
4
5
6
7
8
9
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.suntimes.ru/o/14?page=2")
allnumb=driver.find_elements_by_xpath("//*/img[@onclick='acquire_contacts(arguments[0])']")
for number in allnumb:
    number.click()
elem=driver.find_elements_by_xpath("//*/tr/td[2]/*/span/span")
for text in elem:
    print text.text
Для того чтобы работал быстрее можете воспользоваться HTMLUnit driver (у меня через прокси не заработал).
А чтобы все json отработали (когда вместо телефона написано:“запрос…”), либо sleep выставите, либо с WebDriverWait поиграйте.

PS. Ну и само собой к xpath лучше не привязываться, но там не слишком много атрибутов.
что с этим можно сделать?
0
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 20:13
zalexz94, предположу что вначале нужно установить selenium
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.06.2014, 20:13
Помогаю со студенческими работами здесь

Парсинг лога. Перевод скрипта с bash в vbs.
Проблема такая. В основном работаю с Linux, но сейчас потребовалось написать скрипт как под Linux, так и под Windows. Скрипт должен от лога...

Узнать информацию о работе скрипта
Как можно узнать информацию о скорости выполнения скрипта и количестве памяти, которую он тратит?

Увеличить время выполнения скрипта (автоматический парсинг сайта)
Всем привет. задача: нужно получить все телефоны с сайта. кпримеру, запускаю скрипт и ложусь спать, так как ссылок очень много. ...

Парсинг XML, как взять информацию только из-под одного тега?
Подскажите. Есть xml файл, как взять данные равные 11? У меня выводится как 9 так и 11. &lt;first&gt; ...

Как исключить из поиска информацию, которую уже отправлял бот (парсинг сайта)?
Доброго времени суток.Учусь писать телеграм ботов.У меня стоит задача написать бота с рецептами,который производит поиск по ключевым...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru