波多野结衣视频一区2区3区,欧美福利视频一区二区精品,越南女子杂交内射BBWxz

深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）是深度學(xué)習(xí)算法和強(qiáng)化學(xué)習(xí)算法的巧妙結(jié)合，它是一種新興的通用人工智能算法技術(shù)，也是機(jī)器學(xué)習(xí)的前沿技術(shù)，DRL 算法潛力無限，AlphaGo 是目前該算法*成功的使用案例。DRL 算法以馬爾科夫決策過程為基礎(chǔ)，是在深度學(xué)習(xí)強(qiáng)大的非線性函數(shù)的擬合能力下構(gòu)成的一種增強(qiáng)算法。深度強(qiáng)化學(xué)習(xí)算法主要包括基于動態(tài)規(guī)劃（DP）的算法以及基于策略優(yōu)化的算法，本書的目的就是要把這兩種主要的算法（及設(shè)計(jì)技巧）講解清楚，使算法研究人員能夠熟練地掌握。

《揭秘深度強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》共10 章，首先以AlphaGo 在圍棋大戰(zhàn)的偉大事跡開始，引起對人工智能發(fā)展和現(xiàn)狀的介紹，進(jìn)而介紹深度強(qiáng)化學(xué)習(xí)的基本知識。然后分別介紹了強(qiáng)化學(xué)習(xí)（重點(diǎn)介紹蒙特卡洛算法和時(shí)序差分算法）和深度學(xué)習(xí)的基礎(chǔ)知識、功能神經(jīng)網(wǎng)絡(luò)層、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），以及深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)和當(dāng)前主流的算法框架。*后介紹了深度強(qiáng)化學(xué)習(xí)在不同領(lǐng)域的幾個應(yīng)用實(shí)例。引例、基礎(chǔ)知識和實(shí)例相結(jié)合，方便讀者理解和學(xué)習(xí)。

《揭秘深度強(qiáng)化學(xué)習(xí) 人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》內(nèi)容豐富，講解全面、語言描述通俗易懂，是深度強(qiáng)化學(xué)習(xí)算法入門的*選擇。本書適合計(jì)算機(jī)專業(yè)本科相關(guān)學(xué)生、人工智能領(lǐng)域的研究人員以及所有對機(jī)器學(xué)習(xí)和人工智能算法感興趣的人員。

《揭秘深度強(qiáng)化學(xué)習(xí) 人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》是一本詳細(xì)介紹深度強(qiáng)化學(xué)習(xí)算法的入門類圖書，涉及深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的相關(guān)內(nèi)容，是人工智能*前沿的研究方向。非常適合想在下一代技術(shù)領(lǐng)域立足的人工智能和機(jī)器學(xué)習(xí)算法從業(yè)者學(xué)習(xí)和參考。

機(jī)器學(xué)習(xí)的一個分支是神經(jīng)網(wǎng)絡(luò)；神經(jīng)網(wǎng)絡(luò)模擬人的大腦，形成神經(jīng)網(wǎng)絡(luò)模型，它可以包括很多層次，一般來講層次越深學(xué)習(xí)效果越好，很多層的神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)。

在傳統(tǒng)的機(jī)器學(xué)習(xí)中，主要分為非監(jiān)督學(xué)習(xí)（unsupervised learning）、監(jiān)督學(xué)習(xí)（supervised leaning）和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是對決策的學(xué)習(xí)，簡單來講，強(qiáng)化學(xué)習(xí)就是用獎勵機(jī)制，自己調(diào)節(jié)參數(shù)，讓算法越來越聰明。

深度強(qiáng)化學(xué)習(xí)，研究的是如何通過深度學(xué)習(xí)的方法來解決強(qiáng)化學(xué)習(xí)的問題。也就是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。

《揭秘深度強(qiáng)化學(xué)習(xí) 人工智能機(jī)器學(xué)習(xí)技術(shù)叢書》一書囊括了強(qiáng)化學(xué)習(xí)基礎(chǔ)知識、馬爾科夫決策過程、無模型強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、深度學(xué)習(xí)基礎(chǔ)知識、神經(jīng)網(wǎng)絡(luò)基本組成、反向傳播算法、功能神經(jīng)網(wǎng)絡(luò)層、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)（CNN）的基礎(chǔ)和結(jié)構(gòu)、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)、蒙特卡洛搜索樹、策略梯度算法、深度強(qiáng)化學(xué)習(xí)算法框架、深度Q學(xué)習(xí)、雙Q學(xué)習(xí)、異步優(yōu)越性策略子-評價(jià)算法、深度強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例等。

深度強(qiáng)化學(xué)習(xí)算法可應(yīng)用于量化投資、游戲智能、機(jī)器人決策、自動駕駛、無人機(jī)等。

深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）是一種新興的通用人工智能算法技術(shù)，是人工智能邁向智能決策的重要一步。

關(guān)于深度強(qiáng)化學(xué)習(xí)的文章目前比較少，系統(tǒng)介紹深度強(qiáng)化學(xué)習(xí)的教材幾乎沒有。本書系統(tǒng)地介紹深度強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)知識。學(xué)習(xí)該算法的人員需要人工智能相關(guān)專業(yè)的背景，但是并不需要比較深的背景。本書以一種通俗易懂的、細(xì)致的方式對深度強(qiáng)化學(xué)習(xí)算法進(jìn)行了講解，力求幫助讀者較快入門。深度強(qiáng)化學(xué)習(xí)涉及的知識面比較廣，但其算法原理并不是想象得那么復(fù)雜。因此，本書會對其相關(guān)知識點(diǎn)進(jìn)行簡要的介紹，保證沒有相關(guān)經(jīng)驗(yàn)的讀者也能夠很好地理解本書的內(nèi)容。通過本書的學(xué)習(xí)，希望讀者能夠掌握兩大類別的深度強(qiáng)化學(xué)習(xí)算法：基于動態(tài)規(guī)劃的算法以及基于策略梯度的算法。深度強(qiáng)化學(xué)習(xí)具有較廣泛的使用場景，例如游戲決策、量化投資、動畫仿真等，希望本書能夠幫助讀者適應(yīng)不同的使用場景。

本書特點(diǎn)

● 前沿的研究方向：本書介紹人工智能目前最前沿的研究方向，是通用智能的基礎(chǔ)。

● 完備的DRL 入門書籍：囊括經(jīng)典，緊跟前沿，包括DRL 目前最新研究成果。

● 通俗易懂的講解：用通俗易懂的語言，結(jié)合案例進(jìn)行解析，適合所有人工智能相關(guān)專業(yè)的初學(xué)者，能幫助他們快速入門。

● 專業(yè)的經(jīng)驗(yàn)：本書密切結(jié)合實(shí)際應(yīng)用，是人工智能前沿研究及實(shí)踐的經(jīng)驗(yàn)總結(jié)。

本書內(nèi)容安排

第1 章　深度強(qiáng)化學(xué)習(xí)概覽

本章從當(dāng)前人工智能飛速發(fā)展并引起廣泛關(guān)注的背景出發(fā)，概述了深度強(qiáng)化學(xué)習(xí)的基本知識，強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展歷史、基本概念和特點(diǎn)等，以及深度強(qiáng)化學(xué)習(xí)的兩種算法。

第2 章　強(qiáng)化學(xué)習(xí)基礎(chǔ)

傳統(tǒng)的強(qiáng)化學(xué)習(xí)是深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)。本章從馬爾科夫模型出發(fā)介紹了馬爾科夫決策過程，同時(shí)用比較通俗的語言介紹了強(qiáng)化學(xué)習(xí)中的兩種問題，有模型強(qiáng)化學(xué)習(xí)問題以及無模型強(qiáng)化學(xué)習(xí)問題。現(xiàn)實(shí)中無模型強(qiáng)化學(xué)習(xí)問題是一種非常普遍的情況，因此重點(diǎn)介紹了其中的蒙特卡洛算法以及時(shí)序差分算法。

第3 章　深度學(xué)習(xí)基礎(chǔ)

強(qiáng)化學(xué)習(xí)引入深度學(xué)習(xí)之后，性能得到了極大的提高。本章重點(diǎn)介紹深度學(xué)習(xí)的基礎(chǔ)，主要從四個方面來介紹：深度學(xué)習(xí)簡史、深度學(xué)習(xí)的基礎(chǔ)概念、數(shù)據(jù)預(yù)處理以及深度學(xué)習(xí)的硬件基礎(chǔ)。本章的學(xué)習(xí)對于強(qiáng)化學(xué)習(xí)甚至是機(jī)器學(xué)習(xí)都非常重要。

第4 章　功能神經(jīng)網(wǎng)絡(luò)層

功能神經(jīng)網(wǎng)絡(luò)層是深度學(xué)習(xí)的核心部分。本章將介紹深度學(xué)習(xí)過程中的激活函數(shù)、全連接層、參數(shù)開關(guān)Dropout 以及CNN 和RNN 等。本章最后也介紹了相關(guān)的網(wǎng)絡(luò)設(shè)計(jì)技巧。

第5 章　卷積神經(jīng)網(wǎng)絡(luò)（CNN）

本章用大量的篇幅介紹卷積神經(jīng)網(wǎng)絡(luò)，這是因?yàn)槟壳癉RL 都是基于CNN 實(shí)現(xiàn)的，是希望讀者能夠迅速掌握其相關(guān)知識，不要因?yàn)槠潆y點(diǎn)而影響算法的學(xué)習(xí)。本章主要介紹了CNN 的網(wǎng)絡(luò)結(jié)構(gòu)、基于CNN 的經(jīng)典模型，以及基于CNN 的流行應(yīng)用。

第6 章　循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

循環(huán)神經(jīng)網(wǎng)絡(luò)雖然不是深度強(qiáng)化學(xué)習(xí)的重點(diǎn)，但是也是深度學(xué)習(xí)的一個重要的網(wǎng)絡(luò)結(jié)構(gòu)，不難預(yù)見，基于RNN 的強(qiáng)化學(xué)習(xí)算法也會不斷出現(xiàn)。本章介紹了RNN 的基礎(chǔ)，同時(shí)介紹了RNN 的兩種常見的結(jié)構(gòu)：LSTM 以及GRU。

第7 章　如何實(shí)現(xiàn)CNN用C 語言實(shí)現(xiàn)深度學(xué)習(xí)

本章結(jié)合代碼，通過CNN 的C 語言實(shí)現(xiàn)力求使讀者真正地認(rèn)識神經(jīng)網(wǎng)絡(luò)，主要內(nèi)容涉及和CNN 相關(guān)的基礎(chǔ)結(jié)構(gòu)，包括激活函數(shù)的實(shí)現(xiàn)、池化操作以及全連接網(wǎng)絡(luò)的實(shí)現(xiàn)。此外，本章重點(diǎn)對卷積網(wǎng)絡(luò)進(jìn)行了講解，包括前向傳播和反向傳播的具體實(shí)現(xiàn)。

第8 章　深度強(qiáng)化學(xué)習(xí)

本章介紹了深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)，是本書的理論重點(diǎn)，并結(jié)合傳統(tǒng)的強(qiáng)化學(xué)習(xí)，介紹了記憶回放（Memory-Replay）機(jī)制以及蒙特卡洛搜索樹。此外，對主流的兩類深度強(qiáng)化學(xué)習(xí)算法及其結(jié)合進(jìn)行了詳細(xì)的理論推導(dǎo)。閱讀本章需要一定的數(shù)學(xué)理論基礎(chǔ)。

第9 章　深度強(qiáng)化學(xué)習(xí)算法框架

本章介紹了當(dāng)前主流的深度強(qiáng)化學(xué)習(xí)算法框架，例如深度Q 學(xué)習(xí)算法、異步深度強(qiáng)化學(xué)習(xí)算法、異步優(yōu)越性策略子- 評價(jià)算法等。

第10 章　深度強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例

本章提供了一些深度強(qiáng)化學(xué)習(xí)的應(yīng)用實(shí)例，希望通過具體的應(yīng)用案例讓讀者了解深度強(qiáng)化學(xué)習(xí)算法。具體實(shí)例涉及計(jì)算機(jī)游戲、3D 動畫仿真以及AlphaGo 技術(shù)解密。

本書由淺入深，先理論后操作，講解全面易懂，尤其適合剛剛?cè)腴T人工智能領(lǐng)域的新手。

適合閱讀本書的讀者

● 在校計(jì)算機(jī)專業(yè)本科生；

● 人工智能領(lǐng)域研究生；

● 人工智能領(lǐng)域研究員；

● 研究機(jī)器學(xué)習(xí)算法的相關(guān)人員；

● 人工智能領(lǐng)域愛好者。

本書源文件下載