Форум программистов, компьютерный форум, киберфорум
Python: ИИ, нейросети, ML, агенты
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 26.01.2020
Сообщений: 5

Машинное обучение ruRoberta-large для классификации текстовых рекламных объявлений

16.06.2024, 15:35. Показов 1414. Ответов 0

Студворк — интернет-сервис помощи студентам
Здравствуйте, прошу совета знающих.
Выполнима ли задача классификации текстов рекламных объявлений, определять плохие или хорошие, дообучив ruRoberta-large к примеру? Сколько данных для такого может потребоваться?
Сейчас попробовал обучить на датасете размером 483 строки с объявлениями, вручную размеченными, и что-то как-то не очень хорошо он классифицирует.
Во время обучения выдает в самом начале такое:
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at C:/dz/git_rurobert-large/ruRoberta-large and are newly initialized: ['classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.dense.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Пробовал тестить, выдает такое, просто при изменении одного слова меняет свой выбор:
Выдаёт 1: "Оптом электротовары здесь. Мы предлагаем широкий ассортимент товаров высокого качества. Доставка бесплатно. Заходите!"
Выдаёт 0:"Оптом сельхозтехника здесь. Мы предлагаем широкий ассортимент товаров высокого качества. Доставка бесплатно. Заходите!"
Оба этих слова "электротовары","сельхозтехника " есть в датасете, но повторяются по разу и размечены как 1.(Хорошее объявление)


Вот код программы обучения:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import RobertaTokenizer, RobertaForSequenceClassification, Trainer, TrainingArguments
import torch
 
# Путь к сохраненной модели и токенизатору
model_path = "C:/dz/git_rurobert-large/ruRoberta-large"  # Здесь используется ранее обученная модель, можно заменить на другую
 
# Загрузка данных
file_path = 'fixed_final2.csv'
df = pd.read_csv(file_path, delimiter=';')
 
# Объединение заголовка и текста в одну строку и добавление меток
df['full_text'] = df['Заголовок'] + '. ' + df['Текст']
df['label'] = df['is_selling']  # Предполагается, что у вас есть столбец "Метка" с значениями 0 или 1
 
# Разделение на обучающую и тестовую выборки
train_texts, val_texts, train_labels, val_labels = train_test_split(df['full_text'], df['label'], test_size=0.1)
 
# Токенизация данных
tokenizer = RobertaTokenizer.from_pretrained(model_path)
 
def tokenize_function(texts):
    return tokenizer(texts, padding="max_length", truncation=True, max_length=128)
 
train_encodings = tokenize_function(train_texts.tolist())
val_encodings = tokenize_function(val_texts.tolist())
 
# Создание PyTorch Dataset
class AdDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
 
    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item
 
    def __len__(self):
        return len(self.labels)
 
train_dataset = AdDataset(train_encodings, train_labels.tolist())
val_dataset = AdDataset(val_encodings, val_labels.tolist())
 
# Настройка модели и обучения
model = RobertaForSequenceClassification.from_pretrained(model_path, num_labels=2)
 
training_args = TrainingArguments(
    output_dir="./results1",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=100,
    weight_decay=0.01,
)
 
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
)
 
# Запуск обучения
trainer.train()
 
# Сохранение обученной модели
model.save_pretrained("./fine_tuned_classifier1")
tokenizer.save_pretrained("./fine_tuned_classifier1")
Любые советы что как попробовать
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
16.06.2024, 15:35
Ответы с готовыми решениями:

Машинное обучение для классификации текстов на Python (Наивный Байес)
Всем привет! Я новенький в машинном обучении. Поэтому буду рад любому ответу, совету и помощи. Я начал изучать машинное обучение с простого...

Машинное обучение для предсказания ренты
Делаю лабу по машинному обучению. Но честно говоря не до конца все понимаю. Нужно прогнозировать число байкеров, которые арендуют...

Машинное обучение для биржи.! Я студент
Попробовал написать робота для биржи но толку мало сливает депо, и не понятно почему R^2 почти единица, Что я делаю не так? код прилагается

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
16.06.2024, 15:35
Помогаю со студенческими работами здесь

Машинное обучение на временных рядах для прогнозирования
Привет! Я делаю модель машинного обучения на временных рядах для прогнозирования качества связи. Мой порядок действий следующий: 1)...

Машинное обучение для выбора способа доставки грузов
Добрый день уважаемые форумчани! Прошу помочь с решением одной задачки. Хочу автоматизировать процесс принятия решения при выборе способа...

Машинное обучение
Здравствуйте. Прочитал на Хабре несколько статей по машинному обучению и решил немного попрактиковаться в этом деле. Есть набор...

Машинное Обучение
Доброго времени суток уважаемые читатели, хочу услышать Ваше экспертное мнение в области машинного обучения. На данный момент есть много...

Машинное обучение
Здравствуйте, помогите мне понять! Начал изучение нейронных сетей, после чего мне дали задачу - реализация прогнозной модели...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru