1 強(qiáng)化學(xué)習(xí)基礎(chǔ)概念
? ?1.1 強(qiáng)化學(xué)習(xí)的定義與組成要素
? ?1.2 馬爾可夫決策過程與獎(jiǎng)勵(lì)函數(shù)
? ?1.3 狀態(tài)價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù)
2 Q-learning基本原理與實(shí)現(xiàn)
? ?2.1 Q-learning算法介紹
? ?2.2 表格型Q-learning實(shí)現(xiàn)
? ?2.3 Q-learning收斂性與穩(wěn)定性
3 深度Q-learning網(wǎng)絡(luò)(DQN)
? ?3.1 神經(jīng)網(wǎng)絡(luò)在Q-learning中的應(yīng)用
? ?3.2 經(jīng)驗(yàn)回放與目標(biāo)網(wǎng)絡(luò)
? ?3.3 DQN算法實(shí)現(xiàn)與應(yīng)用案例
強(qiáng)化學(xué)習(xí)揭秘:Q-learning與策略梯度入門
1015
- 511年前
- 261年前
- 191年前
- 571年前
- 391年前
- 371年前
- 271年前
- 371年前
- 201年前
- 481年前
- 381年前
- 361年前
- 301年前
- 421年前
- 471年前
- 331年前
- 181年前
- 501年前
- 241年前
- 211年前
- 331年前
- 231年前
- 411年前
- 511年前
- 261年前
- 541年前
- 431年前
- 441年前