3 / 3 / 0
Регистрация: 28.01.2022
Сообщений: 48

Алгоритм UCB

24.07.2024, 13:41. Показов 453. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Реализуйте агента UCB, который действует согласно одноименному алгоритму, который вы обсуждали в модуле «Многорукие бандиты». Алгоритм должен зависеть от параметра c.

Сначала агент делает каждое действие по одному разу. Далее в каждый момент времени https://www.cyberforum.ru/cgi-bin/latex.cgi?(t+1) агент выбирает действие https://www.cyberforum.ru/cgi-bin/latex.cgi?{a}_{t+1}, действия по следующему правилу:
https://www.cyberforum.ru/cgi-bin/latex.cgi?{a}_{t+1}={argmax}_{a}\left({\hat{\mu }}_{a}(t) + c * \sqrt{\frac{\log t}{{n}_{a}}} \right),
где https://www.cyberforum.ru/cgi-bin/latex.cgi?c — параметр, https://www.cyberforum.ru/cgi-bin/latex.cgi?{n}_{a} — количество раз, которое выбиралось действие https://www.cyberforum.ru/cgi-bin/latex.cgi?a, https://www.cyberforum.ru/cgi-bin/latex.cgi?\hat{\mu }_{a}(t) — оценка ценности действия https://www.cyberforum.ru/cgi-bin/latex.cgi?a, равная среднему арифметическому всех наград, полученных за действие https://www.cyberforum.ru/cgi-bin/latex.cgi?a.

Если у агента существует несколько ручек с одинаковым приоритетом, то он должен выбрать ручку с наименьшим номером. Так как при вычислениях могут возникать различные погрешности, то сравнение чисел при поиске наибольшего элемента следует проводить с зазором — для этого используйте реализованную функцию argmax_eps. Функция принимает на вход numpy-массив, а возвращает индекс его наибольшего элемента (если таких несколько, то наименьший).

Изначальный код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = 0
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        pass
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        pass
Мой код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = -1
        self.totalreward = np.zeros(k)
        self.mu = np.zeros(k)
        self.averages_plus = np.zeros(k)
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        self.averages = self.averages_plus.copy()
        self.tries[a] += 1       
        self.totalreward[a] += r
        self.mu[a] = self.totalreward[a] / self.tries[a]
        self.averages_plus[a] = self.mu[a] + self.c  * (np.log(self.tries.sum()) / self.tries[a]) ** (1 / 2)
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        return argmax_eps(self.averages)
Пишу по уравнению, но система все равно выдает неправильный ответ. Объясните пожалуйста, что не так в моем коде.

Добавлено через 35 минут
Решил порешать другие задания, и понял в чем ошибка.

Итоговый код(правильный):
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = 0
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        self.tries[a] += 1       
        self.averages[a] += 1 / self.tries[a] * (r - self.averages[a])
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        action = self.averages + self.c * (np.log(self.tries.sum()) / self.tries) ** .5
        return argmax_eps(action)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.07.2024, 13:41
Ответы с готовыми решениями:

Which generate the UCB, the USB aware @boot
Вобщем, вотЪ. Я заставил свой древний шлюз грузиться с USB. Железо такое: Chaintech 6BTM0/Slot1 PIII 600MHz, донор - Shuttle...

Поиск по дереву методом Монте-Карло, формула UCB
Добрый день. Для поиска в дереве ходов использую модифицированную формулы UCB: Здесь wi это количество побед i-го узла. ni —...

Нужен алгоритм поиска пути в этом лабиринте (будь то волновой алгоритм или алгоритм правой/левой руки )
#include &quot;stdafx.h&quot; #include &lt;iostream&gt; #include &lt;conio.h&gt; using namespace std; void lab () { int s1 = 0; int s2 =...

1
8 / 7 / 1
Регистрация: 23.07.2024
Сообщений: 95
25.07.2024, 23:36
молодэц!!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.07.2024, 23:36
Помогаю со студенческими работами здесь

Волновой алгоритм поиска (Алгоритм A* / Алгоритм А стар)
Хочу разработать алгоритм для решения головоломки с подвижными дисками (перестановочная головоломка). Определение. Перестано́вочные...

Линейный алгоритм, Алгоритм с ветвлениями, Циклический алгоритм Линейный алгоритм
Линейный алгоритм, Алгоритм с ветвлениями, Циклический алгоритм Линейный алгоритм 1. Объясни, что будет напечатано программой Program...

Разработайте алгоритм методом пошаговой детализации и программу, реализующую этот алгоритм.
Расположите в порядке возрастания элементы строк данной матрицы, после чего расположите строки по возрастанию первых элементов полученных...

Разработать алгоритм методом пошаговой детализации и программу, реализующую этот алгоритм
Расставить строки данной матрицы в порядке возрастания наибольших элементов в строках.

Алгоритм Маркова.Реализовать алгоритм, выполняющий |x-y| над числами в унарном коде
Нужно зделать алгоритм по алгоритм Маркова, чтобы выполнялолось модуль разности чисел.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Опции темы

Новые блоги и статьи
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: показать затраченные материалы за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В качестве. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru