現(xiàn)場實操:Python深度強化學習入門:強化學習和深度學習的搜索與控制
定 價:89 元
- 作者:伊藤多一 等
- 出版時間:2022/4/1
- ISBN:9787111700722
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:240
- 紙張:
- 版次:
- 開本:16
《Python深度強化學習入門:強化學習和深度學習的搜索與控制》共7章。其中,第1章介紹了機器學習的分類、強化學習的學習機制以及深度強化學習的概念;第2章通過強化學習的基本概念、馬爾科夫決策過程和貝爾曼方程、貝爾曼方程的求解方法、無模型控制等介紹了強化學習的基本算法;第3章通過深度學習、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)介紹了強化學習中深度學習的特征提取方法;第4章通過行動價值函數(shù)的網(wǎng)絡表示、策略函數(shù)的網(wǎng)絡表示介紹了深度強化學習的實現(xiàn);第5章通過策略梯度法的連續(xù)控制、學習算法和策略模型等,詳細介紹了深度強化學習在連續(xù)控制問題中的應用及具體實現(xiàn);第6章通過巡回推銷員問題和魔方問題詳細介紹了深度強化學習在組合優(yōu)化中的應用及具體實現(xiàn);第7章通過SeqGAN的文本生成和神經(jīng)網(wǎng)絡的架構(gòu)搜索詳細介紹了深度強化學習在時間序列數(shù)據(jù)生成的應用。在附錄中還給出了Colaboratory和Docker等深度強化學習開發(fā)環(huán)境的構(gòu)建。
目 錄
譯者序
原書前言
閱讀本書需要的知識基礎
本書的結(jié)構(gòu)
本書示例的運行環(huán)境
1.1 機器學習的分類004
1.1.1 監(jiān)督學習005
1.1.2 無監(jiān)督學習006
1.1.3 強化學習007
1.2 強化學習的學習機制008
1.3 深度強化學習011
2.1 強化學習的基本概念014
2.1.1 強化學習的問題設定014
2.1.2 強化學習的機制014
2.1.3 關于本章的內(nèi)容016
2.2 馬爾可夫決策過程和貝爾曼方程017
2.2.1 馬爾可夫決策過程017
2.2.2 貝爾曼方程020
2.3 貝爾曼方程的求解方法024
2.3.1 動態(tài)規(guī)劃法024
2.3.2 蒙特卡洛法031
2.3.3 TD學習法033
2.4 無模型控制037
2.4.1 策略改進的方法037
2.4.2 基于價值的方法038
2.4.3 基于策略的方法043
2.4.4 Actor-Critic法049
3.1 深度學習056
3.1.1 深度學習的出現(xiàn)和背景056
3.1.2 什么是深度學習?056
3.1.3 深度學習平臺062
3.2 CNN067
3.2.1 什么是CNN067
3.2.2 CNN的應用071
3.3 RNN074
3.3.1 什么是RNN074
3.3.2 什么是LSTM079
3.3.3 RNN的應用081
4.1 深度強化學習的發(fā)展086
4.1.1 DQN的出現(xiàn)086
4.1.2 用于強化學習的模擬器086
4.2 行動價值函數(shù)的網(wǎng)絡表示089
4.2.1 DQN算法089
4.2.2 DQN算法的實現(xiàn)092
4.2.3 學習結(jié)果099
4.3 策略函數(shù)的網(wǎng)絡表示101
4.3.1 Actor的實現(xiàn)101
4.3.2 Critic的實現(xiàn)101
4.3.3 示例代碼的介紹102
4.3.4 學習結(jié)果108
5.1 策略梯度法的連續(xù)控制114
5.1.1 連續(xù)控制114
5.1.2 策略梯度法學習114
5.2 學習算法和策略模型117
5.2.1 算法概況117
5.2.2 REINFORCE算法118
5.2.3 基準函數(shù)的引入118
5.2.4 高斯模型的策略概率119
5.3 連續(xù)行動模擬器121
5.3.1 pybullet-gym121
5.3.2 Walker2D122
5.4 算法的實現(xiàn)126
5.4.1 算法實現(xiàn)的總體構(gòu)成126
5.4.2 train.py127
5.4.3 policy_estimator.py129
5.4.4 value_estimator.py132
5.5 學習結(jié)果及預測控制134
5.5.1 學習結(jié)果134
5.5.2 預測控制的結(jié)果136
5.5.3 其他環(huán)境模型的應用137
5.5.4 總結(jié)140
6.1 組合優(yōu)化中的應用144
6.1.1 關于組合優(yōu)化144
6.2 巡回推銷員問題145
6.2.1 通過強化學習解決巡回推銷員問題145
6.2.2 實現(xiàn)概要147
6.2.3 運行結(jié)果155
6.2.4 今后的發(fā)展趨勢157
6.3 魔方問題158
6.3.1 用強化學習解決魔方問題158
6.3.2 實現(xiàn)概要161
6.3.3 實現(xiàn)結(jié)果171
6.3.4 AC+MCTS算法的預測結(jié)果173
6.3.5 今后的發(fā)展趨勢177
6.4 總結(jié)179
7.1 根據(jù)SeqGAN的文本生成182
7.1.1 GAN182
7.1.2 SeqGAN183
7.1.3 輸入數(shù)據(jù)185
7.1.4 使用的算法及其實現(xiàn)187
7.1.5 實現(xiàn)結(jié)果195
7.1.6 總結(jié)198
7.2 神經(jīng)網(wǎng)絡架構(gòu)的搜索198
7.2.1 神經(jīng)體系結(jié)構(gòu)搜索198
7.2.2 語義分割199
7.2.3 U-Net200
7.2.4 文件目錄結(jié)構(gòu)201
7.2.5 輸入數(shù)據(jù)201
7.2.6 所使用的算法204
7.2.7 實現(xiàn)結(jié)果213
7.2.8 總結(jié)215
附錄A Colaboratory的GPU環(huán)境構(gòu)建218
A.1 Colaboratory218
A.2 Colaboratory的使用方法218
附錄B 通過Docker進行Windows環(huán)境的構(gòu)建222
B.1 介紹222
B.2 Docker的安裝222
B.3 Docker映像的創(chuàng)建228
B.4 容器的啟動232
B.5 運行情況的查看234
參考文獻238