總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
強化學習
 叢書名稱: 中外學者論AI
 作  者: 柯良軍/王小強
 出版單位: 清華大學
 出版日期: 2019.12
 進貨日期: 2020/2/6
 ISBN: 9787302532408
 開  本: 16 開    
 定  價: 518
 售  價: 414
  會 員 價: 380
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

《強化學習/中外學者論AI》涉及強化學習相關的最基本數學知識、經典強化學習及深度強化學習。《強化學習/中外學者論AI》取材新穎、闡述嚴謹、內容豐富、重點突出、思路清晰、深入淺出、富有啟發性,書中例題都配有計算過程或代碼,便於教學與自學。


內容簡介:

《強化學習/中外學者論AI》介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於采樣-估計的強化學習、基於逼近理論的強化學習及深度強化學習等。
  《強化學習/中外學者論AI》以教學為目標進行選材,力求闡述嚴謹、重點突出、深入淺出,以便於教學與自學。
  《強化學習/中外學者論AI》面向所有對強化學習感興趣的讀者,可作為高等學校理工科高年級本科生、研究生強化學習課程教材或參考書。


作者簡介:

柯良軍,博士,西安交通大學教授、博士生導師。2008年獲西安交通大學工學博士學位。2011年10月至2012年10月在英國University of Essex訪問學習。近期主要從事大規模複雜智能計算與深度強化學習方面研究。在IEEE Transaction on Cybernetic、Omega、European Journal of Operational Research等重要刊物發表論文30余篇,其中SCI檢索論文20余篇,出版學術專著1部。擔任IEEE Transactions on Evolutionary Computation、IEEE Transaction on Cybernetics、European Journal of Operational Research等國際重要期刊和會議的審稿人。先後主持國家自然科學基金等10余項科研課題。


圖書目錄:

第1章 緒論
1.1 引言
1.2 解決複雜問題的樸素思想
1.2.1 數學建模與優化
1.2.2 采樣和估計
1.2.3 逼近
1.2.4 迭代
1.3 強化學習簡史
1.4 本書主要內容及結構
1.5 小結
1.6 習題
參考文獻

第2章 基礎知識
2.1 運籌學簡明基礎
2.1.1 無約束非線性規劃優化方法
2.1.2 KKT條件
2.1.3 凸規劃的性質
2.2 概率與統計簡明基礎
2.2.1 概率論基本概念
2.2.2 概率論的收斂定理
2.2.3 統計學的基本概念
2.2.4 最大似然估計法
2.2.5 估計量的優良性評估
2.2.6 采樣與隨機模擬
2.2.7 Monte Carlo方法簡介
2.2.8 重要采樣法
2.3 小結
2.4 習題
參考文獻
第一篇基於模型的強化學習

第3章 多搖臂問題
3.1 動作值方法
3.2 非平穩多搖臂問題
3.3 UCB動作選擇
3.4 梯度搖臂算法
3.5 習題
參考文獻

第4章 Markov決策過程
4.1 定義和記號
4.2 有限Markov決策過程
4.3 Bellman方程
4.4 最優策略
4.5 小結
4.6 習題
參考文獻

第5章 動態規劃
5.1 策略評估
5.2 策略改進
5.3 策略迭代
5.4 值迭代
5.5 異步動態規劃
5.6 收斂性證明
5.7 小結
5.8 習題
參考文獻
第二篇基於采樣-估計的強化學習

第6章 策略評估
6.1 基於Monte Carlo方法的策略評估
6.1.1 同策略Monte Carlo策略評估
6.1.2 異策略Monte Carlo策略評估
6.2 基於時序差分方法的策略評估
6.3 n步預測
6.4 小結
6.5 習題
參考文獻

第7章 策略控制
7.1 同策略Monte Carlo控制
7.2 同策略時序差分學習
7.3 異策略學習
7.4 基於TD(耄?牟唄鑰■?
7.5 實例
7.5.1 問題介紹
7.5.2 MDP模型的要素
7.5.3 策略評估
7.5.4 策略控制
7.6 小結
7.7 習題
參考文獻

第8章 學習與規劃的整合
8.1 模型和規劃
8.2 Dyna:整合規劃、動作和學習
8.3 幾個概念
8.4 在決策關頭的規劃
8.4.1 啟發式算法
8.4.2 rollout算法
8.4.3 Monte Carlo樹搜索
8.5 小結
8.6 習題
參考文獻
第三篇基於逼近理論的強化學習

第9章 值函數逼近
9.1 基於隨機梯度下降法的值函數逼近
9.2 基於隨機梯度下降法的Q-值函數逼近
9.3 批處理
9.3.1 線性最小二乘值函數逼近
9.3.2 線性最小二乘Q-值函數逼近
9.4 小結
9.5 習題
參考文獻

第10章 策略逼近
10.1 策略梯度法
10.1.1 最優參數問題的目標函數
10.1.2 策略梯度
10.1.3 梯度計算
10.1.4 REINFORCE算法
10.2 方差減少方法
10.2.1 利用一個評論
10.2.2 利用基準線
10.3 小結
10.4 習題
參考文獻

第11章 信賴域策略優化
11.1 預備知識
11.2 單調改進一般性隨機策略的方法
11.3 參數化策略的優化
11.4 基於采樣的目標和約束估計
11.5 實用算法
11.6 小結
11.7 習題
參考文獻
第四篇深度強化學習

第12章 深度學習
12.1 神經網絡基礎
12.1.1 神經網絡解決問題的基本流程
12.1.2 激活函數
12.1.3 損失函數
12.1.4 優化算法
12.2 典型深度神經網絡結構
12.2.1 深度的作用
12.2.2 卷積神經網絡
12.2.3 循環神經網絡
參考文獻

第13章 深度Q-網絡
13.1 DQN原理
13.1.1 預處理
13.1.2 網絡結構
13.1.3 算法
13.1.4 深度Q-網絡的訓練算法
13.1.5 算法詳細說明
13.2 DQN實例
13.2.1 Atari 2600遊戲介紹
13.2.2 DQN算法的實現
13.3 小結
13.4 習題
參考文獻

第14章 深度確定性策略梯度
14.1 DDPG算法介紹
14.1.1 DDPG算法的發展介紹
14.1.2 DDPG算法的原理解析
14.2 DDPG算法的實現
14.2.1 Mujoco的安裝及使用
14.2.2 DDPG算法的實現解析
14.2.3 DDPG算法的訓練和測試
參考文獻

第15章 多智能體強化學習
15.1 多智能體強化學習介紹
15.1.1 多智能體強化學習的發展簡述
15.1.2 隨機博弈
15.1.3 納什Q-學習
15.2 平均場多智能體強化學習原理
15.2.1 平均場近似理論
15.2.2 平均場多智能體強化學習算法
15.3 平均場多智能體實驗
15.3.1 MAgent平台
15.3.2 混合合作-競爭的戰鬥遊戲介紹
15.3.3 MF-Q和MF-AC算法的實現解析
15.3.4 戰鬥遊戲的訓練與測試
參考文獻


章節試讀:

強化學習是人工智能的核心內容之一。掌握強化學習需要概率與統計、運籌學、泛函分析等數學知識,而且強化學習發展迅速、知識更新快,這導致學習強化學習是一件有挑戰性的事。本書旨在幫助讀者在短時間內理解和運用強化學習。
  本書的主要特點是:點明問題,以問題為驅動組織內容;注重解釋算法的原理;語言力求簡練與嚴謹。
  本書主要包括以下內容:基於模型的強化學習、基於采樣一估計的強化學習、基於逼近理論的強化學習和深度強化學習。前三部分主要參考Richard S.Sutton和Andrew G.Barto的書Reinforcement Learning:An Introduction以及David Silver的課件。第四部分的深度學習參考了吳恩達的深度學習公開課以及David Silver的深度強化學習講義和相關論文。多智能體強化學習主要參考WangJun等的論文。本書內容由柯良軍統稿,王小強整理並解讀了部分程序。在寫作過程中,作者參考了《機器學習》《強化學習數學基礎》以及《深入淺出強化學習》等相關書籍;同時,作者也大量閱讀了網絡資料。本書在呂同富的Latex模板基礎上用TexLive寫作。在此,作者對以上所有人員表示感謝!本書得到國家自然科學基金項目(編號:61573277)的資助,在此表示誠摯感謝!
  作者綜合各種素材重新組織內容,從不同的視角將強化學習呈現給讀者,衷心希望讀者開卷有益!


圖片預覽:

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。