Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
1 / 1 / 0
Регистрация: 03.02.2015
Сообщений: 35

Спарсить данные с сайта

04.07.2016, 23:53. Показов 913. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть сайт http://www.topix.com/city со списком штатов США.
Нужно зайти на каждый штат и спарсить города, а потом сохранить в формате ~/штат/список_городов.txt

Сделал так, директории со штатами и текстовые файлы добавляются, а названия городов в файле одинаковые, т.е. из самой первой ссылки. Не пойму, как сделать

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from lxml import html
import os
 
URL = "http://www.topix.com"
HOME_DIR = "~/states_of_usa"
 
request = html.parse('{}/city'.format(URL))
links = request.xpath("//ul[@class='dir_col']/li/a/@href")
states = request.xpath("//ul[@class='dir_col']/li/a/text()")
 
for link in links:
    for state in states:
        os.mkdir('{}/{}'.format(HOME_DIR, state))
        with open('{}/{}/cities_of_{}.txt'.format(HOME_DIR, state, state), 'w') as w:
            cities = html.parse(URL + link)
            for city in cities.xpath("//div[@id='dir_sub']/ul[@class='dir_col'][position() < 5]/li/a/text()"):
                w.write('{}\n'.format(city))
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
04.07.2016, 23:53
Ответы с готовыми решениями:

Как спарсить инфу с сайта
Добрый день подскажи как с спарсить инфу с сайта https://baza-gai.com.ua/nomer/AE3040MX (не реклама) Регистрация Модель Приметы Операция ...

Спарсить изображения с сайта image.google.com
Доброй ночи прошу подсказок в вопросе спарсить изображения с сайта image.google.com.Подскажите какую библиотеку использовать(мне без...

Как спарсить значения с таблицы сайта?
Всех приветствую, любители python! Начал писать парсер на Python и столкнулся с проблемой. ИЗ библиотек использую requests,...

2
 Аватар для ilnurgi
141 / 141 / 38
Регистрация: 20.02.2012
Сообщений: 597
05.07.2016, 09:21
у вас не правильный алгоритм,

вы бежите по циклу линков, в каждой итерации зачем то бежите по названию штатов

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from lxml import html
import os
 
URL = "http://www.topix.com"
HOME_DIR = "states_of_usa"
 
request = html.parse('{}/city'.format(URL))
links = request.xpath("//ul[@class='dir_col']/li/a")
 
for link in links:    
    href = link.attrib['href']
    state = link.text
    print state
    os.mkdir('{}/{}'.format(HOME_DIR, state))
    with open('{}/{}/cities_of_{}.txt'.format(HOME_DIR, state, state), 'w') as w:
        cities = html.parse(URL + href)
        for city in cities.xpath("//div[@id='dir_sub']/ul[@class='dir_col'][position() < 5]/li/a/text()"):
            w.write('{}\n'.format(city))
1
1 / 1 / 0
Регистрация: 03.02.2015
Сообщений: 35
05.07.2016, 09:41  [ТС]
Отлично, спасибо огромное
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
05.07.2016, 09:41
Помогаю со студенческими работами здесь

Как спарсить все страницы сайта
Всем привет Я не опытный в пайтоне,написал парсер для одной страницы, в сайте около 1000 страниц Так вот каким образом парсить за один...

Нужно спарсить всю цену с сайта
Есть сайт https://parsinger.ru/html/index1_page_1.html требуется спарсить всю цену, которая есть на сайте. Я написал код: from bs4 import...

Можно ли спарсить данные с якоря?
Можно ли спарсить данные с якоря? Имеется ссылка типа https://.....#..... парсер на якорь не заходит можно ли это как то сделать?

Можно ли спарсить данные с якоря?
Можно ли спарсить данные с якоря? Имеется ссылка типа https://.....#..... парсер на якорь не заходит можно ли это как то сделать?

Нужно спарсить определённые данные usynovite ru
Добрый день всем. Возник вопрос, так как сам python не изучал быстро не смогу что то состряпать. Задача такая-&gt; спарсить данные...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru