Posilované učení
| Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
|---|---|---|---|---|
| B4M36PSU | Z,ZK | 6 | 2P+2C | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra počítačů
- Anotace:
- Požadavky:
- Osnova přednášek:
-
1. Motivation (successes, AGI, human feedback, history)
2. Multi-armed bandit problems (stochastic, contextual)
3. Solving MDPs 1: (Bellman equations, Value iteration)
4. Solving MDPs 2: (Contraction, Policy iteration)
5. Temporal difference learning 1: (TD(0), Sarsa, Q-learning)
6. Temporal difference learning 2: (n-step, Double-Q, DQN)
7. Policy gradient methods 1: (Tabular)
8. Policy gradient methods 2: (Variance reduction, Neural)
9. Combining learning and planning (AlphaZero, muZero)
10. Exploration in RL
11. Multi-agent RL (cooperative vs. adversarial)
12. Applications: Advertising, RLHF, Robotics,
13. Neuro-science and RL
- Osnova cvičení:
- Cíle studia:
- Studijní materiály:
-
Jako primární materiál budou k dispozici online scripta (ne slidy).
Doporučená literatura:
Reinforcement Learning, second edition: An Introduction, Richard Sutton, Andrew G. Barto, 2018.
Deep Reinforcement Learning Hands-On: A practical and easy-to-follow guide to RL from Q-learning and DQNs to PPO and RLHF, Maxim Lapan, 2020.
Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions, Warren B. Powel, 2022.
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Otevřená informatika - Umělá inteligence (PS)
- Otevřená informatika - Počítačové vidění (povinně volitelný předmět)
- Otevřená informatika - Datové vědy (volitelný předmět)