Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
1 / 1 / 0
Регистрация: 14.01.2017
Сообщений: 27

Кириллица при парсинге из ВК в tkinter

21.04.2024, 09:05. Показов 950. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ребята, подскажите пожалуйста. Возникла проблема. У меня есть приложение: оценка постов и комментариев в Вконтакте. В консольном варианте все работает. Все отображается. А вот когда я создаю графическое приложение, то в результатах уже не отображаются русские символы, именно те, которые выгружены из ВК, а те, что прописаны в коде, работают. Использую tkinter. Пробовал меня шрифты, кодировку, ничего не помогает. Сохранение результатов в виде изображения тоже не приносят результатов. Если нужно, то отправлю код
Миниатюры
Кириллица при парсинге из ВК в tkinter   Кириллица при парсинге из ВК в tkinter   Кириллица при парсинге из ВК в tkinter  

0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
21.04.2024, 09:05
Ответы с готовыми решениями:

Кириллица при парсинге XML
Приветствую всех! Пишу программу на Android. В программе закачиваю из интернета XML: <trk> <trkseg> <rtept...

Как сделать так, чтобы при использовании модуля из tkinter не открывалось окно tkinter?
Как сделать так, чтобы при использовании модуля из tkinter не открывалось окно tkinter? Я пишу приложение на kivy но использую ...

Ошибка при попытке открыть программу через консоль, import tkinter as tk ModuleNotFoundError: No module named 'tkinter'
import tkinter as tk ModuleNotFoundError: No module named 'tkinter' Пытаюсь открыть через py main.py, находясь в директории проекта ...

6
 Аватар для TimutGin
515 / 339 / 146
Регистрация: 16.02.2021
Сообщений: 626
21.04.2024, 09:35
Цитата Сообщение от ComaComatose Посмотреть сообщение
Если нужно, то отправлю код
Отправьте код.
0
1 / 1 / 0
Регистрация: 14.01.2017
Сообщений: 27
21.04.2024, 11:52  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
import tkinter as tk
from tkinter import messagebox
from tkinter.scrolledtext import ScrolledText
import vk_api
import warnings
import fasttext
import xml.etree.ElementTree as ET
from datetime import datetime
import re
 
fasttext.FastText.eprint = lambda x: None
warnings.filterwarnings("ignore", category=DeprecationWarning)
 
from dostoevsky.tokenization import RegexTokenizer
from dostoevsky.models import FastTextSocialNetworkModel
 
def analyze_text(text):
    tokenizer = RegexTokenizer()
    model = FastTextSocialNetworkModel(tokenizer=tokenizer)
    results = model.predict([text], k=1)
    return results[0]
 
def print_sentiment(sentiment_scores):
    if "positive" in sentiment_scores and "negative" in sentiment_scores:
        if sentiment_scores["positive"] > sentiment_scores["negative"]:
            return "Положительное"
        elif sentiment_scores["positive"] < sentiment_scores["negative"]:
            return "Негативное"
        else:
            return "Нейтральное"
    elif "positive" in sentiment_scores:
        return "Положительное"
    elif "negative" in sentiment_scores:
        return "Негативное"
    else:
        return "Нейтральное"
 
def sanitize_text(text):
    # Используем регулярное выражение для удаления символов, вызывающих ошибку в Tkinter
    return re.sub(r'[^\x00-\x7F]+', '', text)
 
def save_to_xml(community_name, overall_sentiment):
    current_date = datetime.now().strftime("%Y-%m-%d")
 
    root = ET.Element("CommunitySentiment")
    community = ET.SubElement(root, "Community")
    ET.SubElement(community, "Name").text = community_name
    ET.SubElement(community, "Date").text = current_date
    ET.SubElement(community, "OverallSentiment").text = overall_sentiment
 
    tree = ET.ElementTree(root)
    filename = f"{community_name}_sentiment.xml"
 
    try:
        tree = ET.parse(filename)
        root = tree.getroot()
 
        for elem in root.findall(".//Community"):
            if elem.find("Date").text == current_date:
                elem.find("OverallSentiment").text = overall_sentiment
                tree.write(filename, encoding="utf-8", xml_declaration=True)
                return
        else:
            community = ET.SubElement(root, "Community")
            ET.SubElement(community, "Name").text = community_name
            ET.SubElement(community, "Date").text = current_date
            ET.SubElement(community, "OverallSentiment").text = overall_sentiment
            tree.write(filename, encoding="utf-8", xml_declaration=True)
    except FileNotFoundError:
        tree.write(filename, encoding="utf-8", xml_declaration=True)
 
def analyze_community():
    token = "a126bba9a126bba9a126bba9f9a2314926aa126a126bba9c7fb15b2ea"
 
    vk_session = vk_api.VkApi(token=token)
    vk = vk_session.get_api()
 
    link = link_entry.get()
    group_id = link.split("/")[-1]
 
    name = name_entry.get()
 
    posts = vk.wall.get(domain=group_id, count=10)["items"]
 
    positive_sentiment_score = 0
    negative_sentiment_score = 0
    neutral_sentiment_score = 0
    total_posts_analyzed = 0
    total_comments_analyzed = 0
 
    results = ""
 
    for post in posts:
        post_sentiment = analyze_text(post["text"])
        results += f"Оценка поста: {print_sentiment(post_sentiment)}\n"
        results += f"Пост:\n{sanitize_text(post['text'])}\n\n"
 
        total_posts_analyzed += 1
        if "positive" in post_sentiment:
            positive_sentiment_score += 1
        if "negative" in post_sentiment:
            negative_sentiment_score += 2  # Увеличиваем вес негативных оценок
        if "neutral" in post_sentiment:
            neutral_sentiment_score += 1
 
        comments = vk.wall.getComments(owner_id=post["owner_id"], post_id=post["id"], count=100)["items"]
        total_comments_analyzed += len(comments)
 
        if comments:
            for comment in comments:
                comment_sentiment = analyze_text(comment["text"])
                results += f"Оценка комментария: {print_sentiment(comment_sentiment)}\n"
                results += f"{sanitize_text(comment['text'])}\n\n"
 
                if "positive" in comment_sentiment:
                    positive_sentiment_score += 1
                if "negative" in comment_sentiment:
                    negative_sentiment_score += 2  # Увеличиваем вес негативных оценок
                if "neutral" in comment_sentiment:
                    neutral_sentiment_score += 1
 
    if negative_sentiment_score > positive_sentiment_score:
        overall_sentiment = "Негативное"
    elif negative_sentiment_score < positive_sentiment_score:
        overall_sentiment = "Положительное"
    else:
        overall_sentiment = "Нейтральное"
 
    results += f"Общее настроение в сообществе: {overall_sentiment}\n"
    results += f"Анализировано постов: {total_posts_analyzed}\n"
    results += f"Анализировано комментариев: {total_comments_analyzed}\n"
 
    results_text.delete(1.0, tk.END)
    results_text.insert(tk.END, results)
 
    save_to_xml(name, overall_sentiment)
 
root = tk.Tk()
root.title("Анализ сообщества ВКонтакте")
 
link_label = tk.Label(root, text="Ссылка на сообщество:")
link_label.grid(row=0, column=0, sticky="w")
link_entry = tk.Entry(root, width=50)
link_entry.grid(row=0, column=1)
 
name_label = tk.Label(root, text="Наименование сообщества:")
name_label.grid(row=1, column=0, sticky="w")
name_entry = tk.Entry(root, width=50)
name_entry.grid(row=1, column=1)
 
analyze_button = tk.Button(root, text="Анализировать", command=analyze_community)
analyze_button.grid(row=2, column=0, columnspan=2, pady=10)
 
results_text = ScrolledText(root, width=70, height=20)
results_text.grid(row=3, column=0, columnspan=2, pady=10)
 
root.mainloop()
1
 Аватар для TimutGin
515 / 339 / 146
Регистрация: 16.02.2021
Сообщений: 626
21.04.2024, 19:26
Попробуйте 40 строку заменить на
Python
1
    return re.sub(r'', '', text)
или просто
Python
1
    return text
0
1 / 1 / 0
Регистрация: 14.01.2017
Сообщений: 27
22.04.2024, 07:39  [ТС]
Вот такая ошибка появляется в обоих случаях:
Миниатюры
Кириллица при парсинге из ВК в tkinter  
0
 Аватар для TimutGin
515 / 339 / 146
Регистрация: 16.02.2021
Сообщений: 626
22.04.2024, 12:17
Лучший ответ Сообщение было отмечено ComaComatose как решение

Решение

Цитата Сообщение от ComaComatose Посмотреть сообщение
Вот такая ошибка появляется в обоих случаях:
у меня работает без ошибки,думаю что это из-за версии Python.
попробуйте
Python
1
    return re.sub(r'[\x00-\x1F\x7F\xA0]/u', '', text)
0
1 / 1 / 0
Регистрация: 14.01.2017
Сообщений: 27
23.04.2024, 09:31  [ТС]
Спасибо, а какую версию Вы используете?
Я читал документацию, и там написано, что библиотека dostoevsky поддерживает версию 3.7, на других не хочет запускаться, хотя, возможно, я делаю что-то неправильно
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.04.2024, 09:31
Помогаю со студенческими работами здесь

Появляются лишние символы при сохранении страниц html при парсинге с Селениум
В коде такой фрагмент. С проблемой сталкивался на разных сайтах. На заднем плане скриншот из браузера. На переднем из текстового редактора...

Проблемы при парсинге статьи. Удаляются некоторые данные при сохранении полученной страницы
Здравствуйте. Наткнулся на интересную защиту от парсинга. Получаю страницу с помощью WebBrowser или CefSharp. Таким образом JS...

Подсчитать количество вхождений буквы (кириллица) в строку (кириллица)
Суть такая: по требованию программы ввести строку символов (обыкновенный текст, кириллица(!!!)) и посчитать количество вхождений, если...

Блокируют при парсинге
Привет. Пытаюсь парсить один сайт. После выкачки пары страниц происходит блокировка, как я думаю, по ip, т.к. потом и с браузера своего...

Блокировка при парсинге
Доброго времени суток. Вопрос. Парсю сайт, но через некоторое время меня блокируют на нем. Подскажите, может кто знает как избежать этого...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных через динамический список в справочнике
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru