Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2025/2026

Posilované učení

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
B4M36PSU Z,ZK 6 2P+2C česky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra počítačů
Anotace:
Požadavky:
Osnova přednášek:

1. Motivation (successes, AGI, human feedback, history)

2. Multi-armed bandit problems (stochastic, contextual)

3. Solving MDPs 1: (Bellman equations, Value iteration)

4. Solving MDPs 2: (Contraction, Policy iteration)

5. Temporal difference learning 1: (TD(0), Sarsa, Q-learning)

6. Temporal difference learning 2: (n-step, Double-Q, DQN)

7. Policy gradient methods 1: (Tabular)

8. Policy gradient methods 2: (Variance reduction, Neural)

9. Combining learning and planning (AlphaZero, muZero)

10. Exploration in RL

11. Multi-agent RL (cooperative vs. adversarial)

12. Applications: Advertising, RLHF, Robotics,

13. Neuro-science and RL

Osnova cvičení:
Cíle studia:
Studijní materiály:

Jako primární materiál budou k dispozici online scripta (ne slidy).

Doporučená literatura:

Reinforcement Learning, second edition: An Introduction, Richard Sutton, Andrew G. Barto, 2018.

Deep Reinforcement Learning Hands-On: A practical and easy-to-follow guide to RL from Q-learning and DQNs to PPO and RLHF, Maxim Lapan, 2020.

Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions, Warren B. Powel, 2022.

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 17. 5. 2026
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet8709006.html