Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.94/18: Рейтинг темы: голосов - 18, средняя оценка - 4.94
2 / 2 / 1
Регистрация: 29.11.2012
Сообщений: 143

Удалить ссылки в html

28.10.2017, 19:16. Показов 3605. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем доброго времени суток!
Поставлена задача: Найти на web-странице (на wiki-движке) ключевые слова и построить dot-дерево.
На данный момент я считала со страницы текст при помощи библиотеки request и нашла ключевые слова при помощи библиотеки rutermextract.
Но помимо текста у меня выводятся ссылки виде последовательностей символов и rutermextract определяет их как ключевые слова. Подскажите пожалуйста, как можно от них избавиться?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
import urllib.request
from rutermextract import TermExtractor
term_extractor = TermExtractor()
#url, на котором ищем ключевые слова
link = urllib.request.urlopen('http://itas.pstu.ru')
 
lines = []
for line in link.readlines():
    #взяли все строки с сотрудниками
    if line.find(b'<p>') != -1 and line.find(b'a href'):
        lines.append(line)
link.close()
 
#----------------Видимо, тут нужен перевод в html дерево----------------#
#Переводим bytes в str
for i in range(len(lines)):
    lines[i] = lines[i].decode('utf-8')
 
#Можно работать как с обычной строкой
for i in range(len(lines)):
    #Убираем все лишнее
    lines[i] = lines[i].replace('\t\t\t<li>', '')
    lines[i] = lines[i].replace('\"', '')
    lines[i] = lines[i].replace('<a href=', '')
    lines[i] = lines[i].replace('target=_blank>', '')
    lines[i] = lines[i].replace('</a></li>', '')
    lines[i] = lines[i].replace('</ul>', '')
    lines[i] = lines[i].replace("\r\n", '')
    lines[i] = lines[i].replace('<p>', '')
    lines[i] = lines[i].replace('</p>', '')
    lines[i] = lines[i].replace('<br />', '')
    lines[i] = lines[i].replace('</a>', '')
    lines[i] = lines[i].replace('title', '')
    lines[i] = lines[i].replace('</>', '')
    lines[i] = lines[i].replace('%A4%D0%B0%D0%B9%D0%B7%D1%80%D0%B0%D1%85%D0%BC%D0%B0%D0%BD%D0%BE%D0%B2_%D0%A0%D1%83%D1%81%D1%82%D0%B0%D0%BC_%D0%90%D0%B1%D1%83%D0%B1%D0%B0%D0%BA%D0%B8%D1%80%D0%BE%D0%B2%D0%B8%D1%87 =', '')
    lines[i] = lines[i].replace('%D0%A8%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D1%82%D1%8C%D0%B5%D0%B2_%D0%92%D0%BB%D0%B0%D0%B4%D0%B8%D0%BC%D0%B8%D1%80_%D0%93%D0%B5%D0%BD%D0%BD%D0%B0%D0%B4%D1%8C%D0%B5%D0%B2%D0%B8%D1%87 =', '')
    lines[i] = lines[i].replace('%D0%9F%D0%BE%D0%B3%D1%83%D0%B4%D0%B8%D0%BD_%D0%90%D0%BD%D0%B4%D1%80%D0%B5%D0%B9_%D0%9B%D0%B5%D0%BE%D0%BD%D0%B8%D0%B4%D0%BE%D0%B2%D0%B8%D1%87 =', '')
    lines[i] = lines[i].replace('/wiki/index.php/', '')
 
 
for i in range(len(lines)):
    print (lines[i])
#Извлекаем ключевые слова
for i in range(len(lines)):
    text = lines[i]
    for term in term_extractor(text):
        print (term.normalized, term.count)
Здесь я принудительно убираю все лишнее, но если с тегами это можно сделать, то с ссылками это работает только на конкретной странице (дальше мне нужно будет по ключевым словам переходить на другие и искать ключевые слова там), мне нужен более универсальны способ.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
28.10.2017, 19:16
Ответы с готовыми решениями:

В тексте изменить все ссылки на ссылки html, за исключением ссылок в картинках
Например, у меня есть такой текст: some text ...

WebView - Как отобразить html код ссылки, а не текст ссылки?
Так показывает только текст ссылок QWebFrame* frame = ui-&gt;webView-&gt;page()-&gt;currentFrame(); QWebElementCollection...

Как написать на скрипт java поиска ссылки на определенной html странице если известно начало ссылки но не известен конец.
Как написать на java скрипт поиска ссылки на определенной html странице если известно начало ссылки которую ищем, но не известен ее конец.

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.10.2017, 02:03
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from lxml.html import fromstring
import re
#--------------------------------------
# замена множественных пробелов на один
#--------------------------------------    
def squeeze(value):
    """Replace all sequences of whitespace chars with a single space."""
    return re.sub(r"[\x00-\x20]+", " ", value).strip() 
 
if __name__ == "__main__":
    url = "http://itas.pstu.ru"
 
    resp = requests.get(url)
    # дерево элементов
    tree = fromstring(resp.text)
    # выбираем только нужный элемент и рекурсивно конкатенируем все текстовое содержимое его дочерних узлов
    data = tree.xpath("//div[@id='content']")[0].text_content()
    data = squeeze(data) # убираем лишние пробелы
    # в конец текста попадает одна ссылка - «http://itas.pstu.ru/wiki/index.php?title=Новости_кафедры&oldid=1114»
    # ошибка верстки? - но ее можно легко удалить
    data = re.sub(r"«http:.+?»",'',data) 
    print(data)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
30.10.2017, 02:03
Помогаю со студенческими работами здесь

Удалить ссылки при нажатии на объект и др ссылки
Всем привет, мне необходимо удалить различные ссылки в windows, их нужно удалить из реестра и возможно из библиотеки dll, если кто знает...

Редирект ссылки с html на без html
Здравствуйте. Не получается сделать редирект с http://site.ru/catalog/plasma.html на http://site.ru/catalog/plasma-cut/ Пытался вставить...

ссылки html
Есть ссыла &lt;a href='../HD/inc.html' target='_blank' title='test' &gt; Lolololol&lt;/a&gt; можно ли указать чтобы эта ссылка у...

Ссылки в html
как сделать чтобы при нажатий на картинку в слайдере открывалась определенная страница?вот index (

HTML, ссылки
Добрый день, столкнулся с такой проблемой: не могу назначить ссылке, чтоб она открывала нужный мне скрипт. Как это делается вообще ? ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
1С: Контроль уникальности заводского номера
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
1С: Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит значение перечислений. / / Событие "НачалоВыбора" реквизита на форме. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru