С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.87/15: Рейтинг темы: голосов - 15, средняя оценка - 4.87
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419

Ошибка при работе парсера

24.08.2015, 11:15. Показов 2980. Ответов 11
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем хаюшки!

вот собсвенно код:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# _*_ coding: utf-8 _*_
from bs4 import BeautifulSoup
from get_html import get_html
from mach_re import mach_re
import time
import os
 
BASE_URL = 'http://soft.softodrom.ru/Новинки/?status=&type=&page=1'
PATTERN = '[0-9]+'
html_doc = get_html(BASE_URL)
 
 
def get_pages_count(html_doc):
    
    soup = BeautifulSoup(html_doc, 'lxml')
    pagination = soup.find('div', class_='pagination')
    temp = str(pagination.find_all('a')[-1])
    return int(mach_re(PATTERN, temp))
 
counter = get_pages_count(html_doc)
tic = time.time()
 
for iter_page in range(1, counter + 1):
    print(iter_page)
    url_page = 'http://soft.softodrom.ru/Новинки/?status=&type=&page=' + str(iter_page)
    soup = BeautifulSoup(get_html(url_page), 'lxml')
 
    with open('soft.txt', 'a') as f:
        for link in soup.find_all('div', class_='prgentry')[2:]:
            print(link.text, end='', file=f)
 
 
toc = time.time()
 
print(tic - toc)
print()
os.system('Pause')
при проходе 34 страницы сайта вылетает ошибка:

HTML5
1
2
3
4
5
6
Traceback (most recent call last):
  File "D:/Lab/main.py", line 30, in <module>
    print(link.text, end='', file=f)
  File "C:\Python34\lib\encodings\cp1251.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 135-136: character maps to <undefin
ed>

Я так понимаю не может записать в файл из за кодировки? если да то как поправить ?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.08.2015, 11:15
Ответы с готовыми решениями:

Ошибка при работе с pyinstaller
Всем привет, установил через пип pyinstaller и получаю следующую ошибку. c:\Pyt&gt;pyinstaller Print.py File...

Ошибка при работе с xlsx
Всем доброго времени суток Столкнулся с проблемой при записи в xlsx файл KeyError: 'Worksheet test does not exist.' вот кусок...

Непонятная ошибка при работе с библиотекой requests
Привет. Запускаю такой скрипт: import requests SimpleResponce=requests.get('https://www.google.com.ua/') ...

11
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
24.08.2015, 11:47
При открытии файла нужно явно указать кодировку, это все исправит. Указывай utf8.
1
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
24.08.2015, 12:19  [ТС]
Цитата Сообщение от alex925 Посмотреть сообщение
При открытии файла нужно явно указать кодировку, это все исправит. Указывай utf8.
Сенькс... все заработало
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
26.08.2015, 11:59  [ТС]
Всем доброго...

что бы не создавать лишей темы идем дальше

после работы скрипта получаю файл:
temp.txt:
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
Advanced Diary 4.0  
 
    Программа для ведения ежедневных записей с возможностью одновременного ведения нескольких дневников
    » Загрузок: 5924 - 26.08.2015 02:09 - Бизнес - Органайзеры - 20.84 МБ - XP/Vista/7/8/10 - Условно-бесплатная, 500 руб
    http://soft.softodrom.ru/ap/Advanced-Diary-p6570
 
BluffTitler 12.0.0.5  
 
    Программа для создания 3D-текстовых эффектов и титров, применяемых при DVD-авторинге, а также в трехмерной мультипликации
    » Загрузок: 474 - 26.08.2015 02:07 - Мультимедиа - Редакторы - 21.4 МБ - XP/Vista/7/8/10 - Условно-бесплатная, € 29.95
    http://soft.softodrom.ru/ap/BluffTitler-p24168
...
  и тд
хочу из этого получить список такого вида:
HTML5
1
2
['Advanced Diary 4.0', 'Программа для ведения ежедневных записей с возможностью одновременного ведения нескольких дневников', 'Загрузок: 5924', '26.08.2015 02:09', 'Бизнес', 'Органайзеры', '20.84 МБ', 'XP/Vista/7/8/10', 'Условно-бесплатная, 500 руб', 'Условно-бесплатная, 500 руб', 'http://soft.softodrom.ru/ap/Advanced-Diary-p6570']
['BluffTitler 12.0.0.5', ..... и т.д.
кто, что посоветует?
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.08.2015, 12:15
Vigi, А что тебе мешает последовательно добавлять в список нужные тебе данные?
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
26.08.2015, 13:05  [ТС]
Цитата Сообщение от alex925 Посмотреть сообщение
Vigi, А что тебе мешает последовательно добавлять в список нужные тебе данные?
Видимо не чего, просто туплю наверное....
0
 Аватар для akzo
71 / 67 / 6
Регистрация: 08.08.2013
Сообщений: 286
Записей в блоге: 8
26.08.2015, 13:38
Как-то так наверное:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# -*- coding: utf-8 -*-
 
indents=[]
programm1 = []
programm2 = []
 
with open('temp.txt','r',encoding="utf8") as file:
    text = file.read().split("\n")
    
    for indent in text:
        
        if indent == " ":
            indents.append(indent)
            
        if len(indents) >= 2:
            programm2.append(indent)
        else:
            programm1.append(indent)
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
26.08.2015, 15:29  [ТС]
Цитата Сообщение от akzo Посмотреть сообщение
4
# -*- coding: utf-8 -*-
indents=[]
programm1 = []
programm2 = []
спасибо... Немного не то что хотелось поиметь на выходе...
Я почти уже сам нашел решение, ща малость шлейфую. Но варианты решений интересно будет посмотреть
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.08.2015, 15:43
Цитата Сообщение от Vigi Посмотреть сообщение
Немного не то что хотелось поиметь на выходе...
Делаешь один список и в него пуляешь списки содержащие данные конкретных программ
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
26.08.2015, 16:09  [ТС]
Решил сохранять в ecxel, но есть еще немного шероховатостей Например не реализовано: имя программы должно быть отдельно от описания, да и описания (не которые разбивает на несколько ячеек)
В общем пока получилось так:

get_html.py:
Python
1
2
3
4
5
import requests
 
def get_html(url):
    html_doc = requests.get(url).text
    return html_doc
mach_re.py:
Python
1
2
3
4
5
6
7
8
import re
 
 
def mach_re(r, s):
    se = re.search(r, s)
    if se:
        return se.group()
    return None
и собственно сам код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
from bs4 import BeautifulSoup
from get_html import get_html
from mach_re import mach_re
from openpyxl import Workbook
import time
import os
 
BASE_URL = 'http://soft.softodrom.ru/Новинки/?status=&type=&page=1'
PATTERN = '[0-9]+'
html_doc = get_html(BASE_URL)
base = []
url = ''
wb = Workbook()
ws = wb.active
 
def get_pages_count(html_doc):
 
    soup = BeautifulSoup(html_doc, 'lxml')
    pagination = soup.find('div', class_='pagination')
    temp = str(pagination.find_all('a')[-1])
    return int(mach_re(PATTERN, temp))
 
counter = get_pages_count(html_doc)
 
tic = time.time()
 
for iter_page in range(1, 6): #counter + 1):
    print('Страница:', iter_page)
    url_page = 'http://soft.softodrom.ru/Новинки/?status=&type=&page=' + str(iter_page)
    soup = BeautifulSoup(get_html(url_page), 'lxml')
 
    for link in soup.find_all('div', class_='prgentry')[2:]:
        url = link.contents[2]['href']
        ws.append(str(link.text.strip() + ' - ' + url + '\n').split(' - '))
        url = ''
 
wb.save('111.xlsx')
 
toc = time.time()
 
print(toc - tic + '\n')
os.system('Pause')
Для быстроты в 27 строке закоментил весь цикл страниц сайта, оставил 5 вхождений
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.08.2015, 16:14
Решил сохранять в ecxel
куда проще и удобней сохранять в html или xml. И jinja2 есть и lxml.
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
27.08.2015, 07:21  [ТС]
Блин всю голову сломал
Не могу получить список из списка

есть:
HTML5
1
[['Snapdragon BatteryGuru (Android) 3.0  '], [''], ['\tПозволяет устройствам на базе мобильных процессоров Snapdragon дольше и эффективнее работать от батареи'], ['\t» Загрузок: 1539', '27.08.2015 03:58', 'Android', 'Система', '9.54 МБ', 'Android', 'Бесплатная', 'http://soft.softodrom.ru/ap/Snapdragon-BatteryGuru-Android-p23222'], ['']]
Нужно:
HTML5
1
['Snapdragon BatteryGuru (Android) 3.0  ', '', '\tПозволяет устройствам на базе мобильных процессоров Snapdragon дольше и эффективнее работать от батареи', '\t» Загрузок: 1539', '27.08.2015 03:58', 'Android', 'Система', '9.54 МБ', 'Android', 'Бесплатная', 'http://soft.softodrom.ru/ap/Snapdragon-BatteryGuru-Android-p23222', '']
Хелп ми плиз.....

Добавлено через 18 минут
Точто туплю забыл про extend
вопрос снят

Добавлено через 22 минуты
Цитата Сообщение от alex925 Посмотреть сообщение
куда проще и удобней сохранять в html или xml. И jinja2 есть и lxml.
Наверное так оно и есть (это следующий шаг обязательно попробую и еще наверное выгрузку бд )
просто питон на стадии изучение, нужно ведь все пробовать и использование openpyxl думаю ни как не навредит
спасибо...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
27.08.2015, 07:21
Помогаю со студенческими работами здесь

Возникает ошибка при работе с русскими буквами
Помогите разобраться что не правильно в программе. Программа принимает строку, потом перебирает ее и сохраняет только согласные буквы но...

Ошибка при работе с матрицами
Здравствуйте, нужно посчитать элементы вектора-столбца b через элементы матриц C и B, вот код: import numpy as np C =...

Ошибка при работе с Outlook
Добрый день, Дано: Outlook 2019 64 разрядная версия OS Windows 10 x64 Python 3.9 Приложение пишется в IDE pycharm под админской...

Ошибка при работе с selenium
Здравствуйте, при работе с selenium'ом у меня вылезает ошибка. Код: from selenium import webdriver import time url = 'любой...

Ошибка при работе с параметром sep
Код с параметром sep выдает ошибку, без него датафрейм записывается и выводится. Подскажите что не так? data =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути
Programma_Boinc 01.01.2026
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути Сочетание глобально распределённой вычислительной мощности и инновационных. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru