Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.68/25: Рейтинг темы: голосов - 25, средняя оценка - 4.68
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489

Извлечение текста

30.04.2019, 04:54. Показов 4730. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
У меня есть файл в котором идет сайт, а потом текст, как извлечь текст. Адрес сайта у меня получилось извлечь. Мне необходимо это записать в excel файл по столбцам в первом адрес во втором текст. Подскажите как вытащить текст.
Так извлекаю адреса сайта
Python
1
for line in re.findall("(?P<url>https?://[^\s]+)", txt, re.MULTILINE):
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
30.04.2019, 04:54
Ответы с готовыми решениями:

Извлечение текста из википедии
Помогите, пожалуйста, с задачкой. Нужно реализовать следующее: Вбивается название страны, и со страницы этой страны в википедии...

Извлечение текста
Народ, помогите, пожалуйста, начинающему питонщику. Есть строка такого вида: &lt;thread id=&quot;-1432355984&quot; name=&quot;time...

Обработка текста - извлечение текста в кавычках
Доброго времени суток. У меня есть код void select(WideString FileName) { if (!(FileName.IsEmpty())) { TStringList * IN_SL =...

10
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
30.04.2019, 05:04
образец файла можно увидеть?
0
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489
30.04.2019, 05:35  [ТС]
Вот
Вложения
Тип файла: txt Новый текстовый документ.txt (741 байт, 11 просмотров)
0
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489
30.04.2019, 19:12  [ТС]
Vigi, есть идеи?

Добавлено через 5 часов 54 минуты
Помогите кто может
0
1293 / 677 / 367
Регистрация: 07.01.2019
Сообщений: 2,300
30.04.2019, 19:34
Лучший ответ Сообщение было отмечено Rodmistar как решение

Решение

Просто читать текст если начинается не с https, то считать описанием
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.04.2019, 20:00
Лучший ответ Сообщение было отмечено Rodmistar как решение

Решение

Цитата Сообщение от Rodmistar Посмотреть сообщение
Подскажите как вытащить текст
Чего там вытаскивать? Url - нечетная строка, описание - четная (или наоборот - не имеет значения).

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
s = "url1\n\ntext1\n\nurl2\n\ntext2\n\nurl3\n\ntext3"
# это исходное представление
'''
url1
 
text1
 
url2
 
text2
 
url3
 
text3
'''
 
lines = s.split("\n\n")  # делим строки по переносам
it = [iter(lines)] *  2   # создаем два итератора для чтения со смещением на одну строку
 
with open('12345.csv', "w", newline='') as csv_file:
    writer = csv.writer(csv_file, delimiter=',')
    writer.writerow(['url','text']) # имена полей 
    for row in zip(*it):
        writer.writerow(row)
Code
1
2
3
4
url,text
url1,text1
url2,text2
url3,text3
P.S. Делать табличку в excel мне лень - поэтому csv.
0
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489
01.05.2019, 06:54  [ТС]
Вот версия кода хорошая, но у меня такая ситуация что я этот текст беру с .docx файла и там после ссылки может идти несколько абзацев.

Добавлено через 18 секунд
Есть может ещё идеи
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
01.05.2019, 14:04
Цитата Сообщение от Rodmistar Посмотреть сообщение
я этот текст беру с .docx файла
Тогда зачем прикрепили txt? Между txt и docx - дистанции огромного размера.
Не нужно тратить чужое время выкладывая неверные исходные данные.
0
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489
01.05.2019, 14:25  [ТС]
Garry Galler, я просто как пример выложил, из docx получил и записал в txt. Вот и все
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
01.05.2019, 14:37
Rodmistar,
Вы привели пример в котором строчки идут последовательно - через одну пробельную строку. Этот вариант легко прочитать\распарсить моим способом и далее куда-то записать.
Но если, как вы говорите, в реальном файле такая последовательность не соблюдается, тогда вам сложно помочь и ваш приложенный файл не дает никакой возможности что-то вам посоветовать.

P.S. Всегда выкладывайте как можно более полный пример данных и как можно подробнее поясняйте их структуру.
0
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489
01.05.2019, 15:39  [ТС]
Garry Galler, а если регулярными выражениями ?

Добавлено через 37 секунд
Мне посоветовали так сделать
text = "Ссылка текс Ссылка"

text_without_links = re.findall(
r'(?<=первая ссылка).*?(?=вторая ссылка)', text)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
01.05.2019, 15:39
Помогаю со студенческими работами здесь

Извлечение текста
Имеется текстовый файл, в котором темы определены разделителями #тема1# текст темы1 #тема1# #тема2# текст темы2 #тема2# на...

Извлечение текста
Доброго времени суток, форумчане! Есть задача в excel. Имеем таблицу с адресами: 446800, обл Самарская, р-н Кошкинский, с Кошки, ул...

Извлечение текста поиском
Добрый вечер! Нужна срочно помощь( Есть текст в ячейке, необходимо вытащить данные с соседнюю колонку, проблема в том что надо вытянуть...

Извлечение абзаца из текста
День добрый форумчане. Такой вопрос: Есть несколько открытых документов (под &quot;открытыми&quot; я подразумеваю, что они запущенны)....

Извлечение фактов из текста
Ребята,помогите,пожалуйста,набросать программку для извлечения фактов из текста. Например, &quot;Андрей Васильев,директор торговой сети...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Рецензия / Мнение/ Перевод https:/ / **********/ gallery/ thinkpad-x220-tablet-porn-gzoEAjs . . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru