С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/15: Рейтинг темы: голосов - 15, средняя оценка - 4.73
0 / 0 / 3
Регистрация: 01.11.2016
Сообщений: 47

Парсер не сохраняет результат в CSV

02.02.2017, 10:42. Показов 3170. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Написал простенький парсер для сайта invest***.com, для экономического календаря.
Проблема в том, что в файл сохраняется только 35 строка, а 36-ая уже игнорируется, не могу понять почему.
Я что-то не так делаю?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
# -*- coding: utf-8 -*-
 
import csv
import urllib.request
from bs4 import BeautifulSoup 
 
BASE_URL = 'https://ru.investing.com/economic-calendar/'
REQ = urllib.request.Request(BASE_URL, headers={'User-Agent':"Magic Browser"}) 
 
def get_html(url):
    response = urllib.request.urlopen(REQ)
    return response.read()
 
def parse(html):
    soup = BeautifulSoup(html)
    table = soup.find('table', class_='genTbl closedTbl ecoCalTbl persistArea')
    rows = table.find_all('tr')[1:]
 
    projects = []
    for row in rows:
        cols = row.find_all('td')
        
        projects.append({
            'time': [time.text for time in row.find_all('td')[:-7]],
            'valute': [valute.text.strip() for valute in row.find_all('td')[1:-6]],
            'volatile': [volatile['title'] for volatile in row.find_all(title=True)[2:-3]],
            'title': [title.text.strip() for title in row.find_all('td')[3:-4]]
        })
 
    return projects
 
def save(projects, path):
    with open(path, 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(('Time', 'Valute', 'Volatile', 'Title'))
        writer.writerows((project['time'], ', '.join(project['valute']), project['volatile'], project['title']) for project in projects)
 
def main():
    projects = []
 
    parse(get_html(REQ))
 
    save(projects, 'projects.csv')
 
if __name__ == '__main__':
    main()
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
02.02.2017, 10:42
Ответы с готовыми решениями:

Не сохраняет изменения в формате csv
Добрый день! я столкнулась с проблемой: не сохраняются изменения, сделанные в csv формате. я пыталась переконвертировать формат экселя в...

Неправильно сохраняет в формате csv
Неправильно сохраняет в формате csv файл, полученный в результате выполнения другого макроса. Run ('Make_Prices.xls!Write_Online') ...

Парсер CSV
Здравствуйте, как из csv файла мне получить двумерный массив? Делаю так: $file = file_get_contents("parser/file.csv"); ...

4
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
02.02.2017, 19:26
Лучший ответ Сообщение было отмечено Scady как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
# -*- coding: utf-8 -*-
 
import csv
import urllib.request
from bs4 import BeautifulSoup
 
BASE_URL = 'https://ru.investing.com/economic-calendar/'
REQ = urllib.request.Request(BASE_URL, headers={'User-Agent': "Magic Browser"})
 
 
def get_html():
    response = urllib.request.urlopen(REQ)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, "html.parser")
    table = soup.find('table', class_='genTbl closedTbl ecoCalTbl persistArea')
    rows = table.findAll('tr', id=lambda i: i and i.startswith('eventRowId_'))
 
    projects = []
    for row in rows:
        projects.append({
            'Time': row.find('td', class_='first').text,
            'Valute': row.find('td', class_='flagCur').text.strip(),
            'Volatile': row.find('td', class_='sentiment').get('title') or row.find('td', class_='sentiment').text,
            'Title': row.find('td', class_='event').text.strip()
        })
    return projects
 
 
def save(projects, path):
    with open(path, 'w') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=['Time', 'Valute', 'Volatile', 'Title'])
        writer.writeheader()
        writer.writerows(projects)
 
 
def main():
    projects = parse(get_html())
    save(projects, 'projects.csv')
 
 
if __name__ == '__main__':
    main()
1
0 / 0 / 3
Регистрация: 01.11.2016
Сообщений: 47
03.02.2017, 13:05  [ТС]
Цитата Сообщение от Jabbson Посмотреть сообщение
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
# -*- coding: utf-8 -*-
 
import csv
import urllib.request
from bs4 import BeautifulSoup
 
BASE_URL = 'https://ru.investing.com/economic-calendar/'
REQ = urllib.request.Request(BASE_URL, headers={'User-Agent': "Magic Browser"})
 
 
def get_html():
    response = urllib.request.urlopen(REQ)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html, "html.parser")
    table = soup.find('table', class_='genTbl closedTbl ecoCalTbl persistArea')
    rows = table.findAll('tr', id=lambda i: i and i.startswith('eventRowId_'))
 
    projects = []
    for row in rows:
        projects.append({
            'Time': row.find('td', class_='first').text,
            'Valute': row.find('td', class_='flagCur').text.strip(),
            'Volatile': row.find('td', class_='sentiment').get('title') or row.find('td', class_='sentiment').text,
            'Title': row.find('td', class_='event').text.strip()
        })
    return projects
 
 
def save(projects, path):
    with open(path, 'w') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=['Time', 'Valute', 'Volatile', 'Title'])
        writer.writeheader()
        writer.writerows(projects)
 
 
def main():
    projects = parse(get_html())
    save(projects, 'projects.csv')
 
 
if __name__ == '__main__':
    main()
Спасибо большое, а можно поподробнее, что делает 19-ая строка? Буду очень благодарен.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
03.02.2017, 17:21
Ищем все tr у которых есть id и он начинается с eventRowId_
1
0 / 0 / 3
Регистрация: 01.11.2016
Сообщений: 47
03.02.2017, 21:58  [ТС]
Цитата Сообщение от Jabbson Посмотреть сообщение
Ищем все tr у которых есть id и он начинается с eventRowId_
Спасибо. Теперь всё стало предельно ясно. + в карму
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
03.02.2017, 21:58
Помогаю со студенческими работами здесь

Парсер csv.
Добрый день! Недавно на следующую задачу и что то не смог придумать как ее сделать. Подскажите кто знает основную мысль с чего начинать? ...

CSV парсер
Привет, дали мне вот такую тестовую задачу: В приложении к письму есть файл. Нужно разработать консольную программу которая на вход...

Многопоточный .csv парсер
Доброго времени суток) Суть вопроса думаю понятна из заголовка. файл .csv содержит строки типа ...

Парсер CSV 2 Excel
Добрый день, уважаемые коллеги! :senor: Прошу помощи в доведении до ума парсера для CSV файлов в Excel VBA. Получаю экспортные данные...

Парсер строк CSV
Здравствуйте. Помогите решить задачу Есть файл CSV нужно распарсить так, что бы на выходе мы получили словарь...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru