Парсер работает не корректно. Питон3

@Фархад93 · Регистрация: 20.11.2015

Студворк — интернет-сервис помощи студентам

Если печатать значение "T", то парсер выдает все по одному значению, но как только хочу распечатать "projects", начинаются проблемы, выдаются значения одни и те же по много много раз, подскажите как это исправить

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import urllib.request
from bs4 import BeautifulSoup
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
def parse(html):
    soup = BeautifulSoup(html)
    table = soup.find_all('div', class_='listning-boxes')
 
    projects = []
 
    for row in table:
        for x in row('a'):
            T = x.text.split()
            if T != []:
                print(T)
                Slovar = {'':T}
                projects.append({
                    'title': T,
                })
                #print(projects)
 
def main():
    parse(get_html('http://hurtgalanteria.pl/c/10/portfele-damskie.html'))
 
if __name__ == '__main__':
    main()

@alex925 · 01.02.2016, 01:33

Все нормально работает. Из кода убрал только бессмысленный мусор

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import urllib.request
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
def parse(html):
    soup = BeautifulSoup(html)
    table = soup.find_all('div', class_='listning-boxes')
 
    projects = []
 
    for row in table:
        for x in row('a'):
            if x.text:
                projects.append({'title': x.text.split()})
    print(projects)
 
 
if __name__ == '__main__':
    parse(get_html('http://hurtgalanteria.pl/c/10/portfele-damskie.html'))

@Фархад93 · 01.02.2016, 02:10 **[ТС]**

alex925, Спасибо, не подскажите как вытащить ссылки 'a href="http...html'''?

@alex925 · 01.02.2016, 02:33

Не знаю, смотри документацию. Я bs не юзаю.

@Фархад93 · 01.02.2016, 10:38 **[ТС]**

По задумке, парсер должен искать все ссылки в заданной таблице, выдает только одну.
Далее он должен использовать (допустим даже одну ссылку) и парсить информацию уже с др страницы.
Если вбивать ссылки из результата первого парсинга, то вторая часть работает, но если сохранить результат работы в переменную и попытаться использовать в качестве ссылки ее, то вылетает ошибка.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import urllib.request
from bs4 import BeautifulSoup
 
BASE_URL = 'http://hurtgalanteria.pl/c/10/portfele-damskie.html'
AUS_URL = 'http://hurtgalanteria.pl'
 
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
 
 
 
def parse1(html):
    soup = BeautifulSoup(html)
 
    table = soup.find_all('div', class_='listning-boxes')
 
 
    for row in table:
        for x in row('a'):
            iLL_URL = (x.attrs["href"])
    return iLL_URL
    global iLL_URL
 
 
def parse2(html):
    soup = BeautifulSoup(html)
    Name = soup.find_all('div', class_='pinfo-name')
    print(Name)
           
 
 
if __name__ == '__main__':
    parse1(get_html(BASE_URL))
    TO = repr((str(AUS_URL)) + str(iLL_URL))
    R = repr(TO)
    print(R)
    parse2(get_html(R))

Добавлено через 6 часов 18 минут
уже исправил как надо

Новые блоги и статьи Все статьи Все блоги /
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки Neotwalker 08.03.2026 Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .	Модульная разработка через nuget packages DevAlt 07.03.2026 Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .	Модульный подход на примере F# DevAlt 06.03.2026 В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .	Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование 8Observer8 05.03.2026 Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .	SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий 8Observer8 02.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .	Реалии Hrethgir 01.03.2026 Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .	Ритм жизни kumehtar 27.02.2026 Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .

@Фархад93 0 / 0 / 0 Регистрация: 20.11.2015 Сообщений: 42
	01.02.2016, 02:10 [ТС]
	alex925, Спасибо, не подскажите как вытащить ссылки 'a href="http...html'''? 0

@alex925 2742 / 2341 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	01.02.2016, 02:33
	Не знаю, смотри документацию. Я bs не юзаю. 0

Опции темы