0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4

Парсинг \ Изьять информацию из скрипта

03.06.2014, 15:46. Показов 1435. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Имеется страница сайта вот с таким содержанием

часть кода
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<div class='text ab_simple'>
хххххххххххххххххххххххххххххх
<br>
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267207'></span>
</span>
</div>
<div class='text ab_simple'>
ххххххххххххххххххххххххххххххххх
<br>
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267208'></span>
</span>
мне нужно получить номер телефона вот из этой части
HTML5
1
2
3
4
<span>
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
<span id='pad_contacts_267208'></span>
</span>
Помогите советом, люди добрые
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.06.2014, 15:46
Ответы с готовыми решениями:

Парсинг и URL скрипта
Коллеги, здравствуйте. Стоит задача спарсить страницы: Данные этих страниц доступны в Собственно проблем не вижу, кроме...

Парсинг параменров скрипта
Приветствую, есть проблема: Скрипт принимает параметр, которы может быть задан 2 способами -h, и -h=subst. Параметры принимаю getopt: ...

Парсинг html страницы и исполнение скрипта на ajax
Помогите пожалуйста сделать скрипт/программу чайнику! Я примерно представляю, как она должна работать, но не знаю как это реализовать. 1....

6
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 17:58
zalexz94, думаю задам вопрос тупой, но всё же... между какими тегами находится номер телефона? между вторыми тегами span? или он типа как гифка здесь представлен???
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
03.06.2014, 18:05
zalexz94, Скачиваешь страничку с помощью библиотеки requests, с помощью lxml.html парсишь скачанную страницу.
В lxml.html очень просто получить данные, указав с помощью css селектора откуда нужно получить данные.
0
0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4
03.06.2014, 18:49  [ТС]
Цитата Сообщение от Zarex Посмотреть сообщение
думаю задам вопрос тупой, но всё же... между какими тегами находится номер телефона? между вторыми тегами span? или он типа как гифка здесь представлен???
что бы появился номер нужно нажать на
HTML5
1
<img alt="тел. " height="15" onclick="acquire_contacts(arguments[0])" src="/assets/tel-85b342a711756e4e17ce0c1f15fc71e6.gif" width="15" />
но он храниться в
HTML5
1
<span id='pad_contacts_267208'></span>
Добавлено через 34 секунды
Цитата Сообщение от tsar925 Посмотреть сообщение
Скачиваешь страничку с помощью библиотеки requests, с помощью lxml.html парсишь скачанную страницу.
В lxml.html очень просто получить данные, указав с помощью css селектора откуда нужно получить данные.
а поподробнее можно, я новичок в питоне
0
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 19:18
zalexz94, посмотри здесь и здесь то что советовал tsar925.
вот пример c lxml. С requests я не работал.
lxml поковырял и вытянул так(хотя коряво):
Python
1
2
3
4
5
import lxml.html
doc = lxml.html.parse('example.html')#сюда я так понял можно и урл пихать
for el in doc.xpath("//span[@id]"):
    if el.attrib['id'][:12] == 'pad_contacts':
        print el.text
0
0 / 0 / 0
Регистрация: 03.06.2014
Сообщений: 4
03.06.2014, 19:54  [ТС]
а вот мне на другом форуме подсказали
Python
1
2
3
4
5
6
7
8
9
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.suntimes.ru/o/14?page=2")
allnumb=driver.find_elements_by_xpath("//*/img[@onclick='acquire_contacts(arguments[0])']")
for number in allnumb:
    number.click()
elem=driver.find_elements_by_xpath("//*/tr/td[2]/*/span/span")
for text in elem:
    print text.text
Для того чтобы работал быстрее можете воспользоваться HTMLUnit driver (у меня через прокси не заработал).
А чтобы все json отработали (когда вместо телефона написано:“запрос…”), либо sleep выставите, либо с WebDriverWait поиграйте.

PS. Ну и само собой к xpath лучше не привязываться, но там не слишком много атрибутов.
что с этим можно сделать?
0
55 / 55 / 16
Регистрация: 25.03.2013
Сообщений: 178
03.06.2014, 20:13
zalexz94, предположу что вначале нужно установить selenium
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.06.2014, 20:13
Помогаю со студенческими работами здесь

Парсинг лога. Перевод скрипта с bash в vbs.
Проблема такая. В основном работаю с Linux, но сейчас потребовалось написать скрипт как под Linux, так и под Windows. Скрипт должен от лога...

Узнать информацию о работе скрипта
Как можно узнать информацию о скорости выполнения скрипта и количестве памяти, которую он тратит?

Увеличить время выполнения скрипта (автоматический парсинг сайта)
Всем привет. задача: нужно получить все телефоны с сайта. кпримеру, запускаю скрипт и ложусь спать, так как ссылок очень много. ...

Парсинг XML, как взять информацию только из-под одного тега?
Подскажите. Есть xml файл, как взять данные равные 11? У меня выводится как 9 так и 11. &lt;first&gt; ...

Как исключить из поиска информацию, которую уже отправлял бот (парсинг сайта)?
Доброго времени суток.Учусь писать телеграм ботов.У меня стоит задача написать бота с рецептами,который производит поиск по ключевым...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

Новые блоги и статьи
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru