Обучение gtp2 с 0

crautcher · Регистрация: 27.05.2011

Студворк — интернет-сервис помощи студентам

Будет большой пост. Я что-то застрял в своих начинаниях.
Цель: создать чат бота на основе gpt2, обученного материалом с нуля. Чисто ради академического опыта

Что было сделано.
1. написан скрипт создание пустой модели gpt2-medium

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
from transformers import GPT2Config, GPT2LMHeadModel, GPT2Tokenizer
 
def create_empty_gpt2_xl_with_vocab(save_path, new_tokens=None):
    # Настройка конфигурации модели GPT-2 Medium
    config = GPT2Config.from_pretrained("gpt2-medium")
    
    # Создание пустой модели GPT-2 Medium
    model = GPT2LMHeadModel(config)
    
    # Загружаем базовый токенизатор GPT-2
    tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")  
    
    # Если есть новые токены, добавляем их в токенизатор
    if new_tokens:
        num_added_tokens = tokenizer.add_tokens(new_tokens)
        print(f"Добавлено {num_added_tokens} новых токенов.")
    
    # Обновляем размер эмбеддингов модели, чтобы соответствовать новым токенам
    model.resize_token_embeddings(len(tokenizer))
    
    # Сохраняем модель и токенизатор
    model.save_pretrained(save_path)
    tokenizer.save_pretrained(save_path)
 
    print(f"Пустая модель с добавленным словарем сохранена в '{save_path}'")
    return model, tokenizer
 
if __name__ == "__main__":
    # Пример списка новых токенов (здесь это слова на кириллице)
    new_tokens = []
    
    # Создаем модель с добавленным словарем
    create_empty_gpt2_xl_with_vocab('current', new_tokens)

Создалась модель
current

2. Далее создал папку для обучающего материала в txt, закинул пару книг с открытого доступа.
3. Создал скрипт дообучения. У меня были проблемы с тем чтобы записать модель в туже папку, где исходная, поэтому я делал ротацию папок
current берется за основу, перемещается в prev, а current кладется дообученная версия. Тогда можно многократно запускать дообучение, папки ротируются, в prev лежит бекап прошлой версии

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
import os
import shutil
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from datasets import Dataset
 
# Указываем путь к папкам с моделью и файлам с текстом
pretrained_model_dir = "./current"  # Папка с вашей дообученной моделью
text_file = "texts/data.txt"  # Путь к вашему новому текстовому файлу
 
# Функция для проверки, что путь существует
def check_path(path, is_file=True):
    if not os.path.exists(path):
        raise FileNotFoundError(f"Путь {path} не существует.")
    if is_file and not os.path.isfile(path):
        raise ValueError(f"Указанный путь {path} не является файлом.")
    if not is_file and not os.path.isdir(path):
        raise ValueError(f"Указанный путь {path} не является директорией.")
    print(f"Путь {path} проверен и валиден.")
 
# Проверяем путь к файлу с текстом
check_path(text_file, is_file=True)
 
# Переименовываем или удаляем старую модель, если она существует
if os.path.exists(pretrained_model_dir):
    prev_model_dir = "prev"
    if os.path.exists(prev_model_dir):
        # Если папка с предыдущей моделью уже существует, удаляем её
        shutil.rmtree(prev_model_dir)
        print(f"Папка {prev_model_dir} удалена.")
    # Переименовываем папку с текущей моделью
    os.rename(pretrained_model_dir, prev_model_dir)
    print(f"Папка {pretrained_model_dir} переименована в {prev_model_dir}.")
else:
    print(f"Папка {pretrained_model_dir} не существует, создадим новую модель.")
 
# Создаем папку для новой модели
if not os.path.exists(pretrained_model_dir):
    os.makedirs(pretrained_model_dir)
    print(f"Создана папка для модели: {pretrained_model_dir}")
 
# Загружаем токенизатор и модель из папки с дообученной моделью
tokenizer = AutoTokenizer.from_pretrained(prev_model_dir if os.path.exists(prev_model_dir) else pretrained_model_dir)
model = AutoModelForCausalLM.from_pretrained(prev_model_dir if os.path.exists(prev_model_dir) else pretrained_model_dir)
 
# Убедимся, что у токенизатора есть токен паддинга
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token  # Используем eos_token как токен паддинга
 
# Чтение текста из файла
with open(text_file, "r", encoding="utf-8") as file:
    text = file.read()
 
# Создание dataset из текста
data = {"text": [text]}
dataset = Dataset.from_dict(data)
 
# Токенизация текста
def tokenize_function(examples):
    return tokenizer(examples['text'], truncation=True, padding="max_length", max_length=512)
 
tokenized_datasets = dataset.map(tokenize_function, batched=True)
 
# Добавляем метки в данные
def add_labels(examples):
    examples['labels'] = examples['input_ids'].copy()  # Ставим input_ids как labels
    return examples
 
tokenized_datasets = tokenized_datasets.map(add_labels, batched=True)
 
# Параметры обучения
training_args = TrainingArguments(
    output_dir=pretrained_model_dir,
    learning_rate=5e-5,
    per_device_train_batch_size=2,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    eval_strategy="no",  # Убедитесь, что валидация не выполняется
)
 
# Используем Trainer для дообучения
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets,
)
 
# Начинаем обучение
trainer.train()
 
# Сохраняем модель
model.save_pretrained(pretrained_model_dir)
tokenizer.save_pretrained(pretrained_model_dir)
 
print("Обучение завершено! Модель сохранена в папке:", pretrained_model_dir)

py train.py
Путь texts/data.txt проверен и валиден.
Папка ./current переименована в prev.
Создана папка для модели: ./current
Map: 100%|███████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ██████████████████| 1/1 [00:01<00:00, 1.18s/ examples]
Map: 100%|███████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ █████████████████| 1/1 [00:00<00:00, 124.91 examples/s]
{'train_runtime': 78.2653, 'train_samples_per_second': 0.038, 'train_steps_per_second': 0.038, 'train_loss': 9.03712526957194, 'epoch': 3.0}
100%|███████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ████████████████████████████████████████ ██████████████████████████████| 3/3 [01:18<00:00, 26.10s/it]
Обучение завершено! Модель сохранена в папке: ./current

И скрипт сравнение оветов. У нас всегда есть две версии модели prev и current, мы даем вопрос обоим и выводим результат на экран

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
from transformers import GPT2LMHeadModel, GPT2Tokenizer
 
# Загрузка оригинальной модели (например, GPT-2)
original_model_name = "prev"  # Путь к пустой модели
original_model = GPT2LMHeadModel.from_pretrained(original_model_name)
original_tokenizer = GPT2Tokenizer.from_pretrained(original_model_name)
 
# Загрузка дообученной модели (например, сохраненной в "final_model")
fine_tuned_model_name = "./current"  # Путь к вашей дообученной модели
fine_tuned_model = GPT2LMHeadModel.from_pretrained(fine_tuned_model_name)
fine_tuned_tokenizer = GPT2Tokenizer.from_pretrained(fine_tuned_model_name)
 
# Проверяем и добавляем токен паддинга, если его нет
if original_tokenizer.pad_token is None:
    original_tokenizer.pad_token = original_tokenizer.eos_token  # Используем eos_token как паддинг
if fine_tuned_tokenizer.pad_token is None:
    fine_tuned_tokenizer.pad_token = fine_tuned_tokenizer.eos_token  # Используем eos_token как паддинг
 
# Функция для генерации ответа от модели
def generate_response(model, tokenizer, input_text):
    # Токенизация текста
    inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
    
    # Добавляем attention_mask, если нужно
    attention_mask = inputs.get('attention_mask', None)
    
    # Генерация ответа
    outputs = model.generate(
        inputs['input_ids'], 
        attention_mask=attention_mask, 
        max_length=100, 
        pad_token_id=tokenizer.pad_token_id  # Указываем явно pad_token_id
    )
    
    # Декодирование и возвращение ответа
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response
 
# Массив контрольных вопросов
questions = [
    "Что такое худежественное фото?",
    "Как стать успешным предпринимателем?",
    "Какие преимущества у зеленой энергетики?",
    "Что такое квантовые вычисления?",
    "Почему важно заботиться о психическом здоровье?"
]
 
# Сравнение ответов для всех вопросов
for question in questions:
    print(f"Вопрос: {question}")
    
    # Получаем ответ от оригинальной модели
    original_response = generate_response(original_model, original_tokenizer, question)
    
    # Получаем ответ от дообученной модели
    fine_tuned_response = generate_response(fine_tuned_model, fine_tuned_tokenizer, question)
    
    # Выводим оба ответа
    print("Ответ от оригинальной модели:")
    print(original_response)
    print("\nОтвет от дообученной модели:")
    print(fine_tuned_response)
    print("-" * 50)  # Разделитель между вопросами

OUT:

Вопрос: Что такое худежественное фото?

Ответ от оригинальной модели:
Что такое худежественное фото? в в в вотото вогото вого ва ва вала вото вотото в ватото воготото

Ответ от дообученной модели:
Что такое худежественное фото? дабабабабабапабабабебабабачабабапабапаба чаба

Идея моя была такой
Закинуть материал для обучение, обучить с ротацией, запустить проверку ответов, повторить.

По мере скармливания материал был виден прогрес в ответах:
1. сперва ответы были в одну букву
2. затем в слога
3. затем в более сложные слога
В итоге все доходит до набора каких-то бессмысленных сочетаний буков

Итог: Я скормил >100mb текста и не добился даже чего-то похожего на слова

У меня сомнения: я что-то не так делаю концептуально? Или материала мало, вроде 100мб уже не плохо чтобы хотябы слово написать? Или метод обучения неверный, я пробовал раскатывать с 0 и обучать в разных конфигурациях.

crautcher · 16.01.2025, 12:38 **[ТС]**

Нашел вчера проблему (возможно не единственная) В этом куске:

Python
1
2
3
4
5
6
# Чтение текста из файла
with open(text_file, "r", encoding="utf-8") as file:
    text = file.read()
 
# Создание dataset из текста
data = {"text": [text]}

Получается для книги в 2мб текста, создается массив из одного элемента в 2мб. Я нашел, что при обучении модель не принимает больше N байт с каждого датасета.
Фактически я скармливал мегабайты, а она брала из них только байты.
Переписал на

Python
1
2
3
4
5
6
7
8
9
# Читаем текст и разбиваем его на строки
with open(text_file, "r", encoding="utf-8") as file:
    lines = file.readlines()
 
# Фильтруем строки, убираем пустые
filtered_lines = [line.strip() for line in lines if len(line.strip()) > 3]
 
# Создание dataset из текста
data = {"text": filtered_lines}  # Убираем пустые строки

Получился массив из тысяц элемнтов из строк. Обучение заняло кратно дольше. За ночь скормилась всего одна книга. Это больше похоже на правду. Качетсво пока оценить не могу из за скорости обучения.

Новые блоги и статьи Все статьи Все блоги /
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .	SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий 8Observer8 02.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&d=1772460536 Одним из. . .	Реалии Hrethgir 01.03.2026 Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .	Ритм жизни kumehtar 27.02.2026 Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten 8Observer8 27.02.2026 Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .	SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами 8Observer8 20.02.2026 Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .	Конвертировать закладки radiotray-ng в m3u-плейлист damix 19.02.2026 Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .	Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI Eddy_Em 18.02.2026 Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .