0 / 0 / 0
Регистрация: 26.01.2020
Сообщений: 6

Машинное обучение ruRoberta-large для классификации текстовых рекламных объявлений

16.06.2024, 15:35. Показов 1658. Ответов 0

Студворк — интернет-сервис помощи студентам
Здравствуйте, прошу совета знающих.
Выполнима ли задача классификации текстов рекламных объявлений, определять плохие или хорошие, дообучив ruRoberta-large к примеру? Сколько данных для такого может потребоваться?
Сейчас попробовал обучить на датасете размером 483 строки с объявлениями, вручную размеченными, и что-то как-то не очень хорошо он классифицирует.
Во время обучения выдает в самом начале такое:
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at C:/dz/git_rurobert-large/ruRoberta-large and are newly initialized: ['classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.dense.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Пробовал тестить, выдает такое, просто при изменении одного слова меняет свой выбор:
Выдаёт 1: "Оптом электротовары здесь. Мы предлагаем широкий ассортимент товаров высокого качества. Доставка бесплатно. Заходите!"
Выдаёт 0:"Оптом сельхозтехника здесь. Мы предлагаем широкий ассортимент товаров высокого качества. Доставка бесплатно. Заходите!"
Оба этих слова "электротовары","сельхозтехника " есть в датасете, но повторяются по разу и размечены как 1.(Хорошее объявление)


Вот код программы обучения:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import RobertaTokenizer, RobertaForSequenceClassification, Trainer, TrainingArguments
import torch
 
# Путь к сохраненной модели и токенизатору
model_path = "C:/dz/git_rurobert-large/ruRoberta-large"  # Здесь используется ранее обученная модель, можно заменить на другую
 
# Загрузка данных
file_path = 'fixed_final2.csv'
df = pd.read_csv(file_path, delimiter=';')
 
# Объединение заголовка и текста в одну строку и добавление меток
df['full_text'] = df['Заголовок'] + '. ' + df['Текст']
df['label'] = df['is_selling']  # Предполагается, что у вас есть столбец "Метка" с значениями 0 или 1
 
# Разделение на обучающую и тестовую выборки
train_texts, val_texts, train_labels, val_labels = train_test_split(df['full_text'], df['label'], test_size=0.1)
 
# Токенизация данных
tokenizer = RobertaTokenizer.from_pretrained(model_path)
 
def tokenize_function(texts):
    return tokenizer(texts, padding="max_length", truncation=True, max_length=128)
 
train_encodings = tokenize_function(train_texts.tolist())
val_encodings = tokenize_function(val_texts.tolist())
 
# Создание PyTorch Dataset
class AdDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
 
    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item
 
    def __len__(self):
        return len(self.labels)
 
train_dataset = AdDataset(train_encodings, train_labels.tolist())
val_dataset = AdDataset(val_encodings, val_labels.tolist())
 
# Настройка модели и обучения
model = RobertaForSequenceClassification.from_pretrained(model_path, num_labels=2)
 
training_args = TrainingArguments(
    output_dir="./results1",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=100,
    weight_decay=0.01,
)
 
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
)
 
# Запуск обучения
trainer.train()
 
# Сохранение обученной модели
model.save_pretrained("./fine_tuned_classifier1")
tokenizer.save_pretrained("./fine_tuned_classifier1")
Любые советы что как попробовать
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
16.06.2024, 15:35
Ответы с готовыми решениями:

Машинное обучение для классификации текстов на Python (Наивный Байес)
Всем привет! Я новенький в машинном обучении. Поэтому буду рад любому ответу, совету и помощи. Я начал изучать машинное обучение с простого...

Машинное обучение для предсказания ренты
Делаю лабу по машинному обучению. Но честно говоря не до конца все понимаю. Нужно прогнозировать число байкеров, которые арендуют...

Машинное обучение для биржи.! Я студент
Попробовал написать робота для биржи но толку мало сливает депо, и не понятно почему R^2 почти единица, Что я делаю не так? код прилагается

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
16.06.2024, 15:35
Помогаю со студенческими работами здесь

Машинное обучение на временных рядах для прогнозирования
Привет! Я делаю модель машинного обучения на временных рядах для прогнозирования качества связи. Мой порядок действий следующий: 1)...

Машинное обучение для выбора способа доставки грузов
Добрый день уважаемые форумчани! Прошу помочь с решением одной задачки. Хочу автоматизировать процесс принятия решения при выборе способа...

Машинное обучение
Здравствуйте. Прочитал на Хабре несколько статей по машинному обучению и решил немного попрактиковаться в этом деле. Есть набор...

Машинное Обучение
Доброго времени суток уважаемые читатели, хочу услышать Ваше экспертное мнение в области машинного обучения. На данный момент есть много...

Машинное обучение
Здравствуйте, помогите мне понять! Начал изучение нейронных сетей, после чего мне дали задачу - реализация прогнозной модели...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Опции темы

Новые блоги и статьи
Валидация и контроль данных табличной части документа перед записью
Maks 22.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в КА2. Задача: контроль и валидация данных табличной части документа перед записью с учетом регламента компании. . .
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru