總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
深入淺出強化學習:原理入門
 叢書名稱: 博文視點AI系列
 作  者: 郭憲/方永純
 出版單位: 電子工業
 出版日期: 2018.01
 進貨日期: 2019/8/7
 ISBN: 9787121329180
 開  本: 16 開    
 定  價: 593
 售  價: 316
  會 員 價: 316
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

從零起步掌握強化學習技術精髓,稱霸人工智能領域!

《深入淺出強化學習:原理入門》針對初學者的需求,直接分析原理,並輔以編程實踐。從解決問題的思路,層層剖析,普及了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法,直接將讀者帶入強化學習的殿堂。讀完本書,讀者能在熟練掌握原理的基礎上,直接上手編程實踐。

本書的敘述方式簡潔、直接、清晰,值得精讀!


內容簡介:

《深入淺出強化學習:原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從最基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述了解決此類問題最基本的方法——動態規劃方法,並從中總結出解決強化學習問題的基本思路:交互迭代策略評估和策略改善。基於這個思路,分別介紹了基於值函數的強化學習方法和基於直接策略搜索的強化學習方法。最後介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。
除了系統地介紹基本理論,書中還介紹了相應的數學基礎和編程實例。因此,《深入淺出強化學習:原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。


作者簡介:

郭憲,南開大學計算機與控製工程學院博士後。2009 年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所碩博連讀,主攻機器人動力學建模與控制,並於 2016 年 1 月獲得工學博士學位;期間在國內外知名雜誌和會議發表論文數 10 篇。2016 年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項*課題,內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。


圖書目錄:

1 緒論 1

1.1 這是一本什麼書 1

1.2 強化學習可以解決什麼問題 2

1.3 強化學習如何解決問題 4

1.4 強化學習算法分類及發展趨勢 5

1.5 強化學習仿真環境構建 7

1.5.1 gym安裝及簡單的demo示例 8

1.5.2 深入剖析gym環境構建 10

1.6 本書主要內容及安排 12

第一篇 強化學習基礎 17

2 馬爾科夫決策過程 18

2.1 馬爾科夫決策過程理論講解 18

2.2 MDP中的概率學基礎講解 26

2.3 基於gym的MDP實例講解 29

2.4 習題 34

3 基於模型的動態規劃方法 36

3.1 基於模型的動態規劃方法理論 36

3.2 動態規劃中的數學基礎講解 47

3.2.1 線性方程組的迭代解法 47

3.2.2 壓縮映射證明策略評估的收斂性 49

3.3 基於gym的編程實例 52

3.4 最優控制與強化學習比較 54

3.5 習題 56

第二篇 基於值函數的強化學習方法 57

4 基於蒙特卡羅的強化學習方法 58

4.1 基於蒙特卡羅方法的理論 58

4.2 統計學基礎知識 67

4.3 基於Python的編程實例 71

4.4 習題 74

5 基於時間差分的強化學習方法 75

5.1 基於時間差分強化學習算法理論講解 75

5.2 基於Python和gym的編程實例 83

5.3 習題 87

6 基於值函數逼近的強化學習方法 88

6.1 基於值函數逼近的理論講解 88

6.2 DQN及其變種 94

6.2.1 DQN方法 94

6.2.2 Double DQN 100

6.2.3 優先回放(Prioritized Replay) 102

6.2.4 Dueling DQN 104

6.3 函數逼近方法 105

6.3.1 基於非參數的函數逼近 105

6.3.2 基於參數的函數逼近 111

6.3.3 卷積神經網絡 117

6.4 習題 123

第三篇 基於直接策略搜索的強化學習方法 125

7 基於策略梯度的強化學習方法 126

7.1 基於策略梯度的強化學習方法理論講解 126

7.2 基於gym和TensorFlow的策略梯度算法實現 134

7.2.1 安裝Tensorflow 135

7.2.2 策略梯度算法理論基礎 135

7.2.3 Softmax策略及其損失函數 136

7.2.4 基於TensorFlow的策略梯度算法實現 138

7.2.5 基於策略梯度算法的小車倒立擺問題 141

7.3 習題 141

8 基於置信域策略優化的強化學習方法 142

8.1 理論基礎 143

8.2 TRPO中的數學知識 153

8.2.1 信息論 153

8.2.2 優化方法 155

8.3 習題 164

9 基於確定性策略搜索的強化學習方法 165

9.1 理論基礎 165

9.2 習題 170

10 基於引導策略搜索的強化學習方法 171

10.1 理論基礎 171

10.2 GPS中涉及的數學基礎 178

10.2.1 監督相LBFGS優化方法 178

10.2.2 ADMM算法 179

10.2.3 KL散度與變分推理 183

10.3 習題 184

第四篇 強化學習研究及前沿 185

11 逆向強化學習 186

11.1 概述 186

11.2 基於最大邊際的逆向強化學習 187

11.3 基於最大熵的逆向強化學習 194

11.4 習題 201

12 組合策略梯度和值函數方法 202

13 值迭代網絡 207

13.1 為什麼要提出值迭代網絡 207

13.2 值迭代網絡 210

14 基於模型的強化學習方法:PILCO及其擴展 214

14.1 概述 214

14.2 PILCO 216

14.3 濾波PILCO和探索PILCO 226

14.3.1 濾波PILCO算法 227

14.3.2 有向探索PILCO算法 230

14.4 深度PILCO 232

後記 235

參考文獻 237


章節試讀:

2017年5月,AlphaGo擊敗世界圍棋冠軍柯潔,標誌著人工智能進入一個新的階段。AlphaGo背後的核心算法——深度強化學習——成為繼深度學習之後廣泛受人關注的前沿熱點。與深度學習相比,深度強化學習具有更寬泛的應用背景,可應用於機器人、遊戲、自然語言處理、圖像處理、視頻處理等領域。深度強化學習算法被認為是最有可能實現通用人工智能計算的方法。不過,由於深度強化學習算法融合了深度學習、統計、信息學、運籌學、概率論、優化等多個學科的內容,因此強化學習的入門門檻比較高,並且,到目前為止,市面上沒有一本零基礎全面介紹強化學習算法的書籍。

本書是筆者在南開大學計算機與控製工程學院做博士後期間,每周在課題組內講解強化學習知識的講義合集。在學習強化學習基本理論的時候,我深深地感受到強化學習理論中的很多概念和公式都很難理解。經過大量資料和文獻的查閱並終於理解一個全新的概念時,內心涌現的那種喜悅和興奮,鼓動著我將這些知識分享給大家。為此,我在知乎開闢了《強化學習知識大講堂》專欄,並基本保持了每周一次更新的速度。該專欄得到大家的關注,很多知友反映受益良多,本書的雛形正是來源於此。在成書時,考慮到書的邏輯性和完整性,又添加了很多數學基礎和實例講解。希望本書能幫助更多的人入門強化學習,開啟自己的人工智能之旅。

在寫作過程中,博士後合作導師方勇純教授給了大量的建議,包括書的整體結構、每一章的講述方式,甚至每個標題的選擇。寫作後,方老師細緻地審閱了全文,給出了詳細的批註,並多次當面指導書稿的修改。正是因為方老師的耐心指導與辛勤付出,本書才得以順利完成。

同時,非常感謝組內的研究生丁傑、朱威和趙銘慧三位同學,通過與他們的交流,我學會了如何更明晰地講解一個概念。本書的很多講解方式都是在與他們的交流中產生的。

本書在寫作過程中參考了很多文獻資料,這些文獻資料是無數科研工作者們日日夜夜奮鬥的成果。本書對這些成果進行加工並形成了一套自成體系的原理入門教程。可以說沒有這些科研工作者們的豐碩成果就沒有今天蓬勃發展的人工智能,也就沒有這本書,在此對這些科學工作者們表示由衷的敬意。

本書前六章的內容及組織思路很大部分參考了David Silver的網絡課程,同時參考了強化學習鼻祖 Richard S. Sutton等人所著的ReinforcementLearning: An Introduction,在此向Silver和Sutton致敬。

本書第8章介紹了置信域強化學習算法,主要參考了JohnShulman的博士論文,在此向John Shulman博士及其導師Pieter Abbeel致敬。第10章主要介紹了Sergey Levine博士的工作,在此對其表示感謝。在強化學習前沿部分,本書介紹了最近一年該領域很優秀的研究工作,如Donoghue的組合策略梯度和Qlearning方法,Tamar的值迭代網絡,Deisenroth的PILCO方法和McAllister的PILCO擴展方法,在此對這些作者表示感謝。當然,本書還介紹了很多其他科研工作者的工作,在此對他們一併致謝。

本書闡述的主要是前人提出的強化學習算法的基本理論,並沒有介紹筆者個人的工作,但在此仍然要感謝目前我負責的兩項基金的支持:國家自然科學基金青年基金(61603200)和中國博士後基金面上項目(2016M601256)。這兩個項目都和強化學習有關,本書也可看成是這兩個項目的前期調研和積累。關於更多筆者個人的工作,留待以後再與大家分享。

由於個人水平有限,書稿中難免有錯誤,歡迎各位同行和讀者批評指正。

感謝我的家人,感謝我的愛人王凱女士,感謝她長時間對我的理解和支持,沒有她的幫助,我一無所有,一事無成。這本書獻給她。

郭憲

2017年11月


圖片預覽:

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。