С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.72/18: Рейтинг темы: голосов - 18, средняя оценка - 4.72
0 / 0 / 0
Регистрация: 25.12.2013
Сообщений: 6

Парсинг текста

25.12.2013, 22:44. Показов 3448. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, надо зделать 2 функции в python.
1) Из большого текста вырезать кусок по параметрам слева и права
Пример:
cutOne('Lorem ipsum dolor sit <p>amet</p>, consectetur','<p>','</p>')

вывод:
amet

2)Тоже как первая но оставить результат в список
Пример:
cutOne('Lorem ipsum <p>dolor</p> sit <p>amet</p>, consectetur','<p>','</p>')

вывод:
[dolor,amet]

Вот есть в php
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
function cutOne($content,$left,$right)
{
    $lPos = @strpos($content,$left);
    $len = strlen($left);
    return ($lPos !== false) ? substr($content,$lPos + $len,@strpos($content,$right,$lPos+$len) - ($lPos+$len)) : false;
}
 
 
function cutMulti($content,$stinga,$dreapta)
{
    $ex = explode($stinga,$content);
    foreach($ex as $k => $v){
        if($k > 0)
                  $result[] = current(explode($dreapta,$v));
    }
    return $result;
}
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
25.12.2013, 22:44
Ответы с готовыми решениями:

Парсинг текста
По служебной необходимости столкнулся с ситуацией парсинга текста. С Python я знаком шапочно, к сожалению, поэтому прошу помощи. Задача...

Парсинг текста с сайта
Добрый вечер! Питон знаю посредственно, как и HTML в принципе, но в голове закралась идея сделать бота в телеге, который будет брать...

Парсинг и замена текста в html (python3)
Приветствую Друзья, если не затруднит, подскажите решение для python3. Есть некий html файл, вполне себе стандартный, в нем среди...

8
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
25.12.2013, 22:47
Для парсинга html нужно использоваться специальную библиотеку, на пример lxml.html. С её помощью сможешь получить нужный текст с помощью css селектора или xpath.
0
0 / 0 / 0
Регистрация: 25.12.2013
Сообщений: 6
25.12.2013, 22:51  [ТС]
так я это и прошу помочь сделать
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
25.12.2013, 22:57
Ну вот примерно вот так:
Python
1
2
3
4
5
import lxml.html
 
doc = lxml.html.document_fromstring("<body>Lorem ipsum <p>dolor</p> sit <p>amet</p> consectetur <p></p></body>")
for element in doc.cssselect('p'):
    print(element.text)
0
0 / 0 / 0
Регистрация: 25.12.2013
Сообщений: 6
25.12.2013, 23:12  [ТС]
а если так
cutOne('<a class="o" href="/profile/564454988969" hrefattrs="st.cmd=friendMain&st.friendId =nafzzseklaskuhjdq0qblmdhkhscasohwiqnx&s t._aid=UsersOnline_FriendMain"></a>','<a class="o" href="','"')

вывод:
/profile/564454988969
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.12.2013, 08:36
Python
1
2
3
4
5
import lxml.html
 
doc = lxml.html.document_fromstring('<body><a class="o" href="/profile/564454988969" hrefattrs="st.cmd=friendMain&st.friendId=nafzzseklaskuhjdq0q blmdhkhscasohwiqnx&st._aid=UsersOnline_FriendMain"></a> <a class="o" href=""</body>')
for element in doc.cssselect('a.o'):
    print(element.get('href'))
0
0 / 0 / 0
Регистрация: 25.12.2013
Сообщений: 6
26.12.2013, 15:05  [ТС]
Traceback (most recent call last):
File "/var/www/python/parser.py", line 4, in <module>
for element in doc.cssselect('a.o'):
File "/usr/lib/python2.7/dist-packages/lxml/html/__init__.py", line 290, in cssselect
from lxml.cssselect import CSSSelector
File "/usr/lib/python2.7/dist-packages/lxml/cssselect.py", line 18, in <module>
raise ImportError('cssselect seems not to be installed. '
ImportError: cssselect seems not to be installed. See http://packages.python.org/cssselect/
[Finished in 0.0s with exit code 1]
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
26.12.2013, 15:17
Судя по выводу у тебя не установлен модуль cssselect. Установи pip
Bash
1
sudo apt-get install pip
и потом с помощью pip поставь модуль нужный sudo pip install cssselect

Ну вообще, у меня ошибок ни каких нет. Система mint 14, python3
0
 Аватар для Amet13
1362 / 1074 / 110
Регистрация: 16.03.2012
Сообщений: 4,543
26.12.2013, 19:21
Цитата Сообщение от picaso133 Посмотреть сообщение
вывод:
amet
Ну привет!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
26.12.2013, 19:21
Помогаю со студенческими работами здесь

Парсинг текста на сайте с защитой от копирования
Уважаемые форумчане, прошу помощи: есть сайт с текстом книги, но он защищен от копирования. Помогите спарсить весь текст книги в файлик. ...

Парсинг по порядку или парсинг до определенного тега
Доброго времени друзья! Подскажите пожалуйста, к примеру есть вот такой html код: &lt;div class=&quot;container mt-3&quot;&gt; ...

Парсинг текста
Всем привет , есть задача написать парсер логинов &quot;InstallConfigStore&quot; { &quot;ZIP&quot; { &quot;Path&quot; { &quot;All&quot; ...

Парсинг текста
Добрый день! Нужна помощь. Как из текстового файла записать по поиску имени(последний столбец) в переменную $id - первое число в...

Парсинг текста
{&quot;access_token&quot;:&quot;91b81e63e14a5814ac45c7987a37d7561e29e0c178b7f89c33431514642759a65fa784c291632f0781956&quot;,&quot;expires_in&quot;:0,&quot;user_id&quot;:285490918}...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru