關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
基于Python的強(qiáng)化學(xué)習(xí) 本書(shū)首先介紹在強(qiáng)化學(xué)習(xí)環(huán)境中工作所需的工具、庫(kù)和設(shè)置,涵蓋了強(qiáng)化學(xué)習(xí)的構(gòu)成模塊,深入探討基于值的方法,如Q-learning和SARSA算法的應(yīng)用。讀者將學(xué)習(xí)如何結(jié)合使用Q-learning和神經(jīng)網(wǎng)絡(luò)來(lái)解決復(fù)雜問(wèn)題。此外,在學(xué)習(xí)*d*dPG和TD3確定性算法之前,讀者將學(xué)習(xí)策略梯度方法,如TRPO和PPO,以提高性能和穩(wěn)定性。本書(shū)還介紹模仿學(xué)習(xí)的原理,以及Dagger如何教智能體飛行。讀者將探索進(jìn)化策略和黑盒優(yōu)化技術(shù)。最后,讀者將掌握探索方法,如UCB和UCB1,并開(kāi)發(fā)一個(gè)名為ESBAS的元算法。 本書(shū)將幫助讀者掌握強(qiáng)化學(xué)習(xí)算法,并通過(guò)構(gòu)建自學(xué)習(xí)智能體,理解算法的實(shí)現(xiàn)。 前言 import gym # create the environment # loop 10 times # close the environment 命令行的輸入輸出標(biāo)記為粗體格式: $ git clone https://github.com/pybox2d/pybox2d Bold:(粗體)表示新概念、關(guān)鍵詞或者出現(xiàn)在屏幕上菜單/對(duì)話框里的詞。例如,在強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)里,算法被稱為智能體,從環(huán)境提供的數(shù)據(jù)中學(xué)習(xí)。 Andrea Lonza是一名深度學(xué)習(xí)工程師,對(duì)人工智能懷有極大的熱情,渴望創(chuàng)造出具有智能行為的機(jī)器。他通過(guò)理論性的和工業(yè)應(yīng)用性的機(jī)器學(xué)習(xí)項(xiàng)目獲得了強(qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)方面的專業(yè)知識(shí)。他還參加過(guò)幾次Kaggle比賽,并取得了很好的成績(jī)。他總是在尋找引人入勝的挑戰(zhàn),并喜歡證明自己。 目錄 第二部分 無(wú)模型強(qiáng)化學(xué)習(xí)算法 附錄 思考題參考答案 260
你還可能感興趣
我要評(píng)論
|