Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/9: Рейтинг темы: голосов - 9, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6

Не создается файл с данными при парсинге сайта

24.03.2017, 14:35. Показов 1990. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
#!/usr/bin/env python3.6
# _*_ coding:utf-8 _*_
import requests
from bs4 import BeautifulSoup
import csv
 
def get_html(url):
    r = requests.get(url)
    return r.text
 
def get_total_pages(html):
    soup = BeautifulSoup(html, 'lxml')
 
    pages = soup.find('div', class_='pagination-pages').find_all('a', class_='pagination-page')[-1].get('href')
    total_pages = pages.split('=')[1].split('&')[0]
 
    return int(total_pages)
 
 
def write_csv(data):
    with open('avito.csv', 'a') as f:
        writer = csv.writer(f)
 
        writer.writerow((data['title'],
                         data['price'],
                         data['address'],
                         data['time'],
                         data['url']))
 
def get_page_data(html):
    soup = BeautifulSoup(html, 'lxml')
 
    ads = soup.find('div', class_='catalog-list').find_all('div', class_='item_table')
 
    for ad in ads:
        #title, price, address, time, url
        try:
            title = ad.find('div', class_='description').find('h3').text.strip()
        except:
            title = ''
 
        try:
            url = 'https://www.avito.ru' + ad.find('div', class_='description').find('h3').find('a').get('href')
        except:
            url = ''
 
        try:
            price = ad.find('div', class_='about').text.strip()
        except:
            price = ''
 
        # try:
        #     metro =
 
        try:
            address = ad.find('p', class_='address').text.strip()
        except:
            address = ''
 
        try:
            time = ad.find('div', class_='data').find('div', class_='date').text.strip()
        except:
            time = ''
 
            data = {'title': title,
                    'price': price,
                    'address': address,
                    'time': time,
                    'url': url}
 
            write_csv(data)
 
 
def main():
    url = 'https://www.avito.ru/novosibirsk/kvartiry/sdam/na_dlitelnyy_srok/1-komnatnye?p=1&i=1&pmax=14000&user=1'
    base_url = 'https://www.avito.ru/novosibirsk/kvartiry/sdam/na_dlitelnyy_srok/1-komnatnye?'
    page_part = 'p='
    query_part = '&i=1&pmax=14000&user=1'
 
    total_pages = get_total_pages(get_html(url))
 
    for i in range(1, total_pages+1):
        url_gen = base_url + page_part + str(i) + query_part
        #print(url_gan)
        html = get_html(url_gen)
        get_page_data(html)
 
 
if __name__ == '__main__':
    main()
Сделал по уроку на ютюбе, ошибку не выдает, но файл с данными не создает. Помогите люди добрые, получить результаты. Да и понять в чем ошибка хочется.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
24.03.2017, 14:35
Ответы с готовыми решениями:

При парсинге сайта содержание в строке выводится не на языке сайта
Здравствуйте. Помогите решить проблему. Сайт в браузере на русском. Когда я его парсю все содержание в строке выводится на украинском?

Не создается файл с данными
Решил попробовать запустить пример из книги,который должен создать файл и записать в его данные.Я верю что он создается,но найти его не...

Ошибка при парсинге сайта
Пытаюсь вынуть с погодного сайта строчку вида дата - температура public List<String> weekParsing() { WebClient client =...

8
18 / 18 / 2
Регистрация: 22.09.2015
Сообщений: 22
25.03.2017, 13:06
Python
1
2
3
4
5
6
7
8
9
10
11
12
        try:
            time = ad.find('div', class_='data').find('div', class_='date').text.strip()
        except:
            time = ''
 
            data = {'title': title,
                    'price': price,
                    'address': address,
                    'time': time,
                    'url': url}
 
            write_csv(data)
У вас вызов функции write_csv находится в блоке с исключением. Соответственно он будет срабатывать только когда словит здесь любое исключение (не ловите все исключения):
Python
1
time = ad.find('div', class_='data').find('div', class_='date').text.strip()
1
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6
26.03.2017, 14:45  [ТС]
Не думаю что дело в исключениях, скорее всего у меня проблема с кодировкой, потому что если в место .text.strip() cnfdk. encode('utf-8').strip() то все начинает работать и файл создается, таблица формируется. выглядит так:
Миниатюры
Не создается файл с данными при парсинге сайта  
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
26.03.2017, 18:44
Цитата Сообщение от onhor Посмотреть сообщение
Не думаю что дело в исключениях
не думаете, а зря.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
...
        try:
            time = ad.find('div', class_='data').find('div', class_='date').text.strip()
        except:
            time = ''
 
            data = {'title': title,
                    'price': price,
                    'address': address,
                    'time': time,
                    'url': url}
 
            write_csv(data)
...
это означает - если произошло исключение при поиске даты, сохранить пустое время и записать в csv.

Добавлено через 55 секунд
PS имена модулей для переменных - не славная идея
0
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6
26.03.2017, 19:30  [ТС]
Я не до конца понимаю как мне написать, без исключения что ли?

Python
1
2
3
4
5
6
7
8
9
10
        try:
            time = ad.find('div', class_='data').find('div', class_='date').text.strip()
 
        data = {'title': title,
                'price': price,
                'address': address,
                'time': time,
                'url': url}
 
        write_csv(data)
Так? Я сразу попробовал, не работает, неверный синтаксис.
0
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6
26.03.2017, 19:36  [ТС]
А как есть выдает ошибку с кодировкой.
Миниатюры
Не создается файл с данными при парсинге сайта  
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
26.03.2017, 20:20
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
import requests
from bs4 import BeautifulSoup as bs
import csv
import re
 
 
def get_html(url):
    r = requests.get(url)
    return r.content
 
 
def get_total_pages(html):
    soup = bs(html, 'lxml')
    last_nav_link = soup.select('div.pagination-pages a')[-1]
    total_pages = re.search(r'\?p=(\d+)&', str(last_nav_link)).group(1)
    return int(total_pages)
 
 
def get_page_data(html):
    soup = bs(html, 'lxml')
    ads = soup.select('div.description')
    page_ads = []
 
    for ad in ads:
 
        title_tag = ad.find('a', class_='item-description-title-link')
 
        title = title_tag.text.strip()
        url = 'https://www.avito.ru' + title_tag.get('href')
        price = ad.find('div', class_='about').find(text=True, recursive=False).strip()
        address = ad.find('p', class_='address').text.strip()
        date = ad.find('div', class_='date').text.strip()
        page_ads.append({'title': title, 'price': price, 'address': address, 'time': date, 'url': url})
 
    return page_ads
 
 
def main():
    url_template = 'https://www.avito.ru/novosibirsk/kvartiry/sdam/na_dlitelnyy_srok/1-komnatnye?p={}&i=1&pmax=14000&user=1'
 
    total_pages = get_total_pages(get_html(url_template.format(1)))
 
    with open('avito.csv', 'w', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'price', 'address', 'time', 'url'])
        writer.writeheader()
 
        for i in range(1, total_pages + 1):
            page_url = url_template.format(i)
            print(page_url)
            page_html = get_html(page_url)
            page_ads = get_page_data(page_html)
 
            writer.writerows(page_ads)
 
if __name__ == '__main__':
    main()
0
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6
26.03.2017, 22:21  [ТС]
Большое спасибо! Буду разбираться. В IDLE и Саблайме запустилось нормально, а в атоме выдает ошибку на подключение модуля:
Миниатюры
Не создается файл с данными при парсинге сайта  
0
0 / 0 / 0
Регистрация: 24.03.2017
Сообщений: 6
27.03.2017, 08:28  [ТС]
Про ошибку с исключением, я добавил кодировку при создании файла как в примере выше и мой вариант тоже корректно заработал. Спасибо еще раз за подсказку.
Python
1
with open('avito.csv', 'a', encoding='utf-8') as f:
Проблема запуском в Atom решилась дописыванием:

#!/usr/bin/env python3.6
# _*_ coding:utf-8 _*_
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
27.03.2017, 08:28
Помогаю со студенческими работами здесь

Ошибка при парсинге сайта
Написал код using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.Networking; using...

При нажатии на кнопку файл не создается на диске, а он создается только после сворачивания или закрытия окна...
Знакомлюсь с графическим интерфейсом Java Swing. Появилась такая проблема: при нажатии на кнопку должен создаваться файл на диске, а он...

Ошибка при парсинге таблицы с сайта
Здравствуйте! Пытаюсь парсить таблицу с сайта: https://coinmarketcap.com/ Для начала хотел получить имена криптовалют из таблицы с...

Проблема тегами при парсинге сайта
у меня есть сайт matol.kz и я создаю бота который будет уведомлять при появлении новых олимпиад в чем заключается проблема? я...

Получение url при парсинге сайта
Не могу получить URL заголовков. Как решить эту проблему? public class Main { public static void main(String args) throws...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru