Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
3 / 3 / 0
Регистрация: 28.01.2022
Сообщений: 48

Алгоритм UCB

24.07.2024, 13:41. Показов 445. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Реализуйте агента UCB, который действует согласно одноименному алгоритму, который вы обсуждали в модуле «Многорукие бандиты». Алгоритм должен зависеть от параметра c.

Сначала агент делает каждое действие по одному разу. Далее в каждый момент времени https://www.cyberforum.ru/cgi-bin/latex.cgi?(t+1) агент выбирает действие https://www.cyberforum.ru/cgi-bin/latex.cgi?{a}_{t+1}, действия по следующему правилу:
https://www.cyberforum.ru/cgi-bin/latex.cgi?{a}_{t+1}={argmax}_{a}\left({\hat{\mu }}_{a}(t) + c * \sqrt{\frac{\log t}{{n}_{a}}} \right),
где https://www.cyberforum.ru/cgi-bin/latex.cgi?c — параметр, https://www.cyberforum.ru/cgi-bin/latex.cgi?{n}_{a} — количество раз, которое выбиралось действие https://www.cyberforum.ru/cgi-bin/latex.cgi?a, https://www.cyberforum.ru/cgi-bin/latex.cgi?\hat{\mu }_{a}(t) — оценка ценности действия https://www.cyberforum.ru/cgi-bin/latex.cgi?a, равная среднему арифметическому всех наград, полученных за действие https://www.cyberforum.ru/cgi-bin/latex.cgi?a.

Если у агента существует несколько ручек с одинаковым приоритетом, то он должен выбрать ручку с наименьшим номером. Так как при вычислениях могут возникать различные погрешности, то сравнение чисел при поиске наибольшего элемента следует проводить с зазором — для этого используйте реализованную функцию argmax_eps. Функция принимает на вход numpy-массив, а возвращает индекс его наибольшего элемента (если таких несколько, то наименьший).

Изначальный код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = 0
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        pass
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        pass
Мой код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = -1
        self.totalreward = np.zeros(k)
        self.mu = np.zeros(k)
        self.averages_plus = np.zeros(k)
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        self.averages = self.averages_plus.copy()
        self.tries[a] += 1       
        self.totalreward[a] += r
        self.mu[a] = self.totalreward[a] / self.tries[a]
        self.averages_plus[a] = self.mu[a] + self.c  * (np.log(self.tries.sum()) / self.tries[a]) ** (1 / 2)
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        return argmax_eps(self.averages)
Пишу по уравнению, но система все равно выдает неправильный ответ. Объясните пожалуйста, что не так в моем коде.

Добавлено через 35 минут
Решил порешать другие задания, и понял в чем ошибка.

Итоговый код(правильный):
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import numpy as np
 
def argmax_eps(a, eps=1e-7):
    return np.argwhere((a > np.max(a) - eps).ravel())[0,0]
 
class UCB:
    
    def __init__(self, k, c):
        # Можете указать дополнительные переменные, если они вам понадобятся
        self.k = k # количество ручек
        self.c = c # параметр алгоритма UCB
        self.averages = np.zeros(k) # оценки награды действий
        self.tries = np.zeros(k) # сколько раз было совершено действие
        self.exploration = 0
    
    def reward(self, a, r):
        # Реализуйте обработку очередного вознаграждения
        self.tries[a] += 1       
        self.averages[a] += 1 / self.tries[a] * (r - self.averages[a])
 
    
    def action(self):
        if self.exploration < self.k:
            action = self.exploration
            self.exploration += 1
            return action
        # Допишите сюда остальной код
        action = self.averages + self.c * (np.log(self.tries.sum()) / self.tries) ** .5
        return argmax_eps(action)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.07.2024, 13:41
Ответы с готовыми решениями:

Which generate the UCB, the USB aware @boot
Вобщем, вотЪ. Я заставил свой древний шлюз грузиться с USB. Железо такое: Chaintech 6BTM0/Slot1 PIII 600MHz, донор - Shuttle...

Поиск по дереву методом Монте-Карло, формула UCB
Добрый день. Для поиска в дереве ходов использую модифицированную формулы UCB: Здесь wi это количество побед i-го узла. ni —...

Нужен алгоритм поиска пути в этом лабиринте (будь то волновой алгоритм или алгоритм правой/левой руки )
#include &quot;stdafx.h&quot; #include &lt;iostream&gt; #include &lt;conio.h&gt; using namespace std; void lab () { int s1 = 0; int s2 =...

1
8 / 7 / 1
Регистрация: 23.07.2024
Сообщений: 93
25.07.2024, 23:36
молодэц!!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.07.2024, 23:36
Помогаю со студенческими работами здесь

Волновой алгоритм поиска (Алгоритм A* / Алгоритм А стар)
Хочу разработать алгоритм для решения головоломки с подвижными дисками (перестановочная головоломка). Определение. Перестано́вочные...

Линейный алгоритм, Алгоритм с ветвлениями, Циклический алгоритм Линейный алгоритм
Линейный алгоритм, Алгоритм с ветвлениями, Циклический алгоритм Линейный алгоритм 1. Объясни, что будет напечатано программой Program...

Разработайте алгоритм методом пошаговой детализации и программу, реализующую этот алгоритм.
Расположите в порядке возрастания элементы строк данной матрицы, после чего расположите строки по возрастанию первых элементов полученных...

Разработать алгоритм методом пошаговой детализации и программу, реализующую этот алгоритм
Расставить строки данной матрицы в порядке возрастания наибольших элементов в строках.

Алгоритм Маркова.Реализовать алгоритм, выполняющий |x-y| над числами в унарном коде
Нужно зделать алгоритм по алгоритм Маркова, чтобы выполнялолось модуль разности чисел.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru