強(qiáng)化學(xué)習(xí)揭秘:Q-learning與策略梯度入門

1015

1 強(qiáng)化學(xué)習(xí)基礎(chǔ)概念
? ?1.1 強(qiáng)化學(xué)習(xí)的定義與組成要素
? ?1.2 馬爾可夫決策過程與獎(jiǎng)勵(lì)函數(shù)
? ?1.3 狀態(tài)價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù)


2 Q-learning基本原理與實(shí)現(xiàn)
? ?2.1 Q-learning算法介紹
? ?2.2 表格型Q-learning實(shí)現(xiàn)
? ?2.3 Q-learning收斂性與穩(wěn)定性


3 深度Q-learning網(wǎng)絡(luò)(DQN)
? ?3.1 神經(jīng)網(wǎng)絡(luò)在Q-learning中的應(yīng)用
? ?3.2 經(jīng)驗(yàn)回放與目標(biāo)網(wǎng)絡(luò)
? ?3.3 DQN算法實(shí)現(xiàn)與應(yīng)用案例

聲音28評(píng)價(jià)0