Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 19.12.2023
Сообщений: 12

Парсер и нормализованный текст

17.04.2024, 18:50. Показов 441. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Пишем проект, тема попалась сложная (лично для нас)
Проблема заключается в том чтобы написать 2 программы:
1) Парсер-собирает все посты из группы в вк
2) Программа для нормализации текста
Пыталась делать по урокам из ютуба, поняла как нормализовать одну строку, но не весь файл в целом. Готовая программа не работает, ну или я что-то делаю не так

Парсер:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import requests
import csv
 
 
def get_posts(group_url):
    token = 'f379b0f2f379b0f2f379b0f288f06e696bff379f379b0f29574d1100fc7348fa33f1184'
    posts = []
    offset = 0
 
    while offset < 200:
        url = f'https://api.vk.com/method/wall.get?domain={group_url}&access_token={token}&v=5.92'
        response = requests.get(url, params={
            'count': 200,
            'offset': offset
        }
                                )
        data = response.json()
 
 
        for item in data['response']['items']:
            post_id = item['id']
            text = item['text']
            posts.append({'post_id': post_id, 'text': text})
        offset += 100
 
    return posts
 
 
def save_to_csv(posts):
    with open('vk_posts.csv', 'w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file,delimiter=';')
        writer.writerow(['post_id', 'text'])
 
        for post in posts:
            writer.writerow([post['post_id'], post['text']])
 
 
if __name__ == "__main__":
    group_url = 'abitur_psu_mipt'
    posts = get_posts(group_url)
    save_to_csv(posts)
Нормализатор:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd
import pymorphy3
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
 
nltk.download('punkt')
nltk.download('stopwords')
 
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...']
stop_words = stopwords.words("russian")
morph = pymorphy3.MorphAnalyzer()
 
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text
 
posts = pd.read_csv('vk_posts.csv', sep=";", names=['post_id', 'text'])
posts['preprocessed_text'] = posts['text'].apply(lambda post: preprocess(post, stop_words, punctuation_marks, morph))
print(posts)
Помогите пожалуйста найти ошибку. Заранее спасибо)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
17.04.2024, 18:50
Ответы с готовыми решениями:

Написал парсер текст, не выводит
Написал парсер по озону но текст не выводит помогите пожалуйста from bs4 import BeautifulSoup import requests URL =...

Нормализованный латинский квадрат
Нужно сделать чтоб программа вывела все возможные нормализованные латинские квадраты для заданного n, пока я написал только чтоб она...

Нормализованный вид вещественных чисел
Представить в нормализованном виде вещественные числа в разных системах счисления 1)-0,0007772(10) 2)100010,101(2) 3)В5СЕ,1А(16)

1
Эксперт .NET
 Аватар для Usaga
14129 / 9349 / 1350
Регистрация: 21.01.2016
Сообщений: 35,138
19.04.2024, 05:39
Цитата Сообщение от Nemyides Посмотреть сообщение
Помогите пожалуйста найти ошибку
Помогаю: воспользуйся отладчиком. Он для этих целей и существует. В противном случае "для вас" любая тема, хоть в две строки, где есть баг, будет "сложная".
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
19.04.2024, 05:39
Помогаю со студенческими работами здесь

Перевести выражения с паскаля в нормализованный вид
Перевести выражения с паскаля в нормализованный вид: 4. (X+4)/3/X+Exp(Abs(ArcTan(X)))/2*X+1.0E-06*Exp(l/3*Ln(X)) 5....

Найти нормализованный HOD(f(x), g(x)) по алгоритму Евклида
f(x) = x^3+7x^2-9x-63 g(x) = 2x^3-6x^2-32x+96 Правила форума, пункт 4.7. Как можно более полно описывайте суть проблемы или вопроса,...

Преобразовать значение угла (в градусах) в нормализованный вектор
Привет, кто знает формулу, по которой можно преобразовать значение угла(в градусах) в нормализованный вектор? Например если угол в 90°,...

Парсер rtf в текст и обратно
Добрый день, интересует, есть ли готовый парсер RTF в читабельный текст или может как-то автоматом можно преобразовывать через RichEdit? ...

Парсер html, вытащить текст класса
Вытаскиваю html, но не могу понять как забрать порт прокси, вроде нашёл нужный селектор, но когда беру текст этого тега и класса, то...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru