總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化技術及設備
 
 
 
 
大數據智能:數據驅動的自然語言處理技術
 叢書名稱: 大數據叢書
 作  者: 劉知遠/崔安頎
 出版單位: 電子工業
 出版日期: 2020.01
 進貨日期: 2020/1/9
 ISBN: 9787121375385
 開  本: 16 開    
 定  價: 668
 售  價: 534
  會 員 價: 490
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

覆蓋NLP諸多核心技術與應用場景
每章都為初學者入門提供了詳細參考資料
針對初學者,給出追蹤前沿學術資料的方法與建議


內容簡介:

本書是介紹大數據智能、人工智能技術的科普書籍,旨在讓更多人了解和學習互聯網時代的人工智能技術——自然語言處理技術,讓大數據智能技術更好地為我們服務。

全書包括大數據智能基礎、技術和應用三部分,共14章。
基礎部分有3章:第1章以深度學習為例介紹大數據智能的計算框架;第2章以知識圖譜為例介紹大數據智能的知識庫;第3章介紹大數據的計算處理系統。技術部分有6章,分別介紹機器翻譯、主題模型、情感分析與意見挖掘、智能問答與對話系統、個性化推薦、機器寫作。應用部分有5章,分別介紹社交商業數據挖掘、智慧醫療、智慧司法、智慧金融、計算社會科學。本書後記部分為讀者追蹤大數據智能的學術資料提供了建議。


作者簡介:

劉知遠 清華大學計算機系副教授、博士生導師。主要研究方向為自然語言處理和知識圖譜。2011年獲得清華大學博士學位,在人工智能領域著名國際期刊和會議上發表相關論文60余篇,Google Scholar統計引用超過4,000次。曾獲清華大學優秀博士論文、中國人工智能學會優秀博士論文、清華大學優秀博士後、中文信息學會青年創新獎,入選《麻省理工科技評論》“35歲以下科技創新35人”中國區榜單、中國科協青年人才托舉工程、CCF青年學者提升計劃。擔任中文信息學會青年工作委員會副主任,中文信息學會社會媒體處理專委會秘書長,ACL、EMNLP、COLING等著名國際會議領域主席。


崔安頎 薄言RSVP.ai聯合創始人、AI負責人,從事智能對話的技術研發和商業化應用。2013年獲得清華大學博士學位。曾訪問美國卡耐基梅隆大學、新加坡國立大學,在加拿大滑鐵盧大學擔任博士後研究員。研究方向包括社交媒體情感分析、智能問答、數據挖掘等,發表相關著作20余篇,積累了豐富的科研和商業應用經驗。參與研發薄言“輕語”企業助手平台、“薄言豆豆”智能機器人以及語義解析、機器問答、對話閒聊等算法引擎,將自然語言處理技術應用在智能家居、企業助手、智能客服等場景中。


張開旭 清華大學計算機系博士,研究方向為自然語言處理,THULAC工具草創者,SIGHAN 2012中文分詞評測冠軍,百度搜索中文CRF模塊代碼重構者,微信搜索DSSM模塊開發者,騰訊圍棋AI“絕藝”研發者。現供職於騰訊,嘗試用BERT“搞事情”。


韓文弢 清華大學計算機系助理研究員。主要研究方向為大數據系統和類腦計算系統。2015年獲得清華大學博士學位,在計算機系統相關國際期刊和會議上發表相關論文10余篇。曾獲得西貝爾學者、NOI 2003金牌等榮譽和獎項。擔任CCF NOI科學委員會委員。


趙 鑫 中國人民大學信息學院副教授、博士生導師。主要研究方向為數據挖掘和自然語言處理。2014年獲得北京大學博士學位,在數據挖掘及其相關領域的著名國際期刊和會議上發表相關論文70余篇,曾獲得CIKM 2017z佳短文提名及AIRS 2017z佳論文獎,Google Scholar統計引用2,800余次。曾獲微軟亞洲學者、北京大學優秀博士論文獎、中國人民大學傑出學者等榮譽稱號,入選第二屆CCF青年人才發展計劃。長期擔任國內外著名期刊和會議的評審。


蘇勁松 廈門大學信息學院副教授、博士生導師。主要研究方向為自然語言處理和機器翻譯。2011年獲得中國科學院計算技術研究所博士學位,在人工智能、自然語言處理領域的著名國際期刊和會議上發表相關論文60余篇。擔任CCF中文信息處理青年工作委員會常務委員,中文信息學會青年工作委員會委員,福建省人工智能學會理事,自然語言處理國際會議 NLPCC2018、EMNLP2019領域主席。


張永鋒 羅格斯大學助理教授,主要研究方向為信息檢索、推薦系統、機器學習及互聯網經濟。


嚴 睿 北京大學助理教授、研究員、博士生導師,曾任百度公司資深研究員,華中師範大學與中央財經大學客座教授與校外導師。主持研發了多個開放領域對話系統和服務類對話系統,發表高水平研究論文100余篇,擔任多個學術會議(KDD、IJCAI、SIGIR、ACL、WWW、AAAI、CIKM、EMNLP等)的(資深)程序委員會委員及審稿人。


湯步洲 哈爾濱工業大學(深圳)計算機科學與技術學院副教授、博士生導師。主要研究方向為自然語言處理、知識圖譜、醫學信息處理、醫療支持決策。2011年獲得哈爾濱工業大學博士學位,畢業後先後赴美國范德堡大學和德州大學休斯敦醫學科學中心以博士後研究員身份從事研究工作。在人工智能、醫學信息學領域著名國際期刊和會議上發表相關論文80余篇,Google Scholar統計引用1,300余次。多次在相關領域國際公開評測中獲得冠軍。


涂存超 清華大學計算機系博士後。主要研究方向為自然語言處理和法律智能。2018年獲得清華大學博士學位。在人工智能及自然語言處理著名國際期刊和會議上發表相關論文10余篇。獲得清華大學優秀博士畢業生、清華大學優秀博士論文獎、北京市優秀博士畢業生等榮譽,入選“博士後創新人才支持計劃”。


丁 效 哈爾濱工業大學助理研究員、碩士生導師。主要研究方向為人工智能、自然語言處理、社會計算和事理圖譜。2016年獲得哈爾濱工業大學博士學位,已在AAAI、IJCAI、ACL、EMNLP、NAACL、COLING等人工智能領域的著名國際期刊和會議上發表相關論文20余篇。承擔國家自然科學基金青年項目等省部級以上項目四項,參與國家重大科技基礎設施建設項目、“新一代人工智能”重大項目、國家自然科學基金重點項目等多個科研項目。榮獲全國青年人工智能創新創業大會三等獎、第五屆全國青年計算語言學研討會優秀論文獎等榮譽。


圖書目錄:

1 深度計算——機器大腦的結構 1

1.1 驚人的深度學習 1

1.1.1 可以做酸奶的麵包機:通用機器的概念 2

1.1.2 連接主義 4

1.1.3 用機器設計機器 5

1.1.4 深度網絡 6

1.1.5 深度學習的用武之地 6

1.2 從人腦神經元到人工神經元 8

1.2.1 生物神經元中的計算靈感 8

1.2.2 激活函數 9

1.3 參數學習 10

1.3.1 模型的評價 11

1.3.2 有監督學習 11

1.3.3 梯度下降法 12

1.4 多層前饋網絡 14

1.4.1 多層前饋網絡 14

1.4.2 後向傳播算法計算梯度 16

1.5 逐層預訓練 17

1.6 深度學習是終極神器嗎 20

1.6.1 深度學習帶來了什麼 20

1.6.2 深度學習尚未做到什麼 21

1.7 內容回顧與推薦閱讀 . 22

1.8 參考文獻 23


2 知識圖譜——機器大腦中的知識庫 25

2.1 什麼是知識圖譜 25

2.2 知識圖譜的構建 28

2.2.1 大規模知識庫 28

2.2.2 互聯網鏈接數據 29

2.2.3 互聯網網頁文本數據 30

2.2.4 多數據源的知識融合 31

2.3 知識圖譜的典型應用 32

2.3.1 查詢理解 32

2.3.2 自動問答 34

2.3.3 文檔表示 35

2.4 知識圖譜的主要技術 36

2.4.1 實體鏈指 36

2.4.2 關係抽取 37

2.4.3 知識推理 39

2.4.4 知識表示 40

2.5 前景與挑戰 42

2.6 內容回顧與推薦閱讀 45

2.7 參考文獻 45


3 大數據系統——大數據背後的支撐技術 47

3.1 大數據有多大 47

3.2 高性能計算技術 49

3.2.1 超級計算機的組成 49

3.2.2 並行計算的系統支持 51

3.3 虛擬化和雲計算技術 55

3.3.1 虛擬化技術 56

3.3.2 雲計算服務 58

3.4 基於分布式計算的大數據系統 59

3.4.1 Hadoop 生態系統 60

3.4.2 Spark 67

3.4.3 典型的大數據基礎架構 68

3.5 大規模圖計算 69

3.5.1 分布式圖計算框架 70

3.5.2 高效的單機圖計算框架 71

3.6 NoSQL 72

3.6.1 NoSQL 數據庫的類別 72

3.6.2 MongoDB 簡介 74

3.7 內容回顧與推薦閱讀 76

3.8 參考文獻 77


4 主題模型——機器的智能摘要利器 78

4.1 由文檔到主題 78

4.2 主題模型出現的背景 80

4.3 第一個主題模型:潛在語義分析 81

4.4 第一個正式的概率主題模型 84

4.5 第一個正式的貝葉斯主題模型 85

4.6 LDA 的概要介紹 86

4.6.1 LDA 的延伸理解:主題模型廣義理解 . 90

4.6.2 模型求解 92

4.6.3 模型評估 93

4.6.4 模型選擇:主題數目的確定 94

4.7 主題模型的變形與應用 95

4.7.1 基於 LDA 的變種模型 95

4.7.2 基於 LDA 的典型應用 97

4.7.3 基於主題模型的新浪名人話題排行榜應用 100

4.8 內容回顧與推薦閱讀 104

4.9 參考文獻 105


5 機器翻譯——機器如何跨越語言障礙 110

5.1 機器翻譯的意義 110

5.2 機器翻譯的發展歷史 111

5.2.1 基於規則的機器翻譯 112

5.2.2 基於語料庫的機器翻譯 112

5.2.3 基於神經網絡的機器翻譯 114

5.3 經典的神經網絡機器翻譯模型 114

5.3.1 基於循環神經網絡的神經網絡機器翻譯 114

5.3.2 從卷積序列到序列模型 117

5.3.3 基於自注意力機制的 Transformer 模型 118

5.4 機器翻譯譯文質量評價 120

5.5 機器翻譯面臨的挑戰 121

5.6 參考文獻 123


6 情感分析與意見挖掘——機器如何了解人類情感 125

6.1 情感可以計算嗎 125

6.2 哪裡需要文本情感分析 . 126

6.2.1 情感分析的宏觀反映 127

6.2.2 情感分析的微觀特徵 128

6.3 情感分析的主要研究問題 129

6.4 情感分析的主要方法 132

6.4.1 構成情感和觀點的基本元素 132

6.4.2 情感極性與情感詞典 134

6.4.3 屬性-觀點對 141

6.4.4 情感極性分析 143

6.5 主要的情感分析資源 148

6.6 前景與挑戰 149

6.7 內容回顧與推薦閱讀 150

6.8 參考文獻 151


7 智能問答與對話系統——智能助手是如何煉成的 154

7.1 問答:圖靈測試的基本形式 154

7.2 從問答到對話 155

7.2.1 對話系統的基本過程 156

7.2.2 文本對話系統的常見場景 157

7.3 問答系統的主要組成 159

7.4 文本問答系統 161

7.4.1 問題理解 161

7.4.2 知識檢索 165

7.4.3 答案生成 169

7.5 端到端的閱讀理解問答技術 169

7.5.1 什麼是閱讀理解任務 170

7.5.2 閱讀理解任務的模型 172

7.5.3 閱讀理解任務的其他工程技巧 173

7.6 社區問答系統 174

7.6.1 社區問答系統的結構 174

7.6.2 相似問題檢索 175

7.6.3 答案過濾 177

7.6.4 社區問答的應用 177

7.7 多媒體問答系統 179

7.8 大型問答系統案例:IBM 沃森問答系統 181

7.8.1 沃森的總體結構 182

7.8.2 問題解析 182

7.8.3 知識儲備 183

7.8.4 檢索和候選答案生成 184

7.8.5 可信答案確定 184

7.9 前景與挑戰 186

7.10 內容回顧與推薦閱讀 186

7.11 參考文獻 187


8 個性化推薦系統——如何了解計算機背後的他 190

8.1 什麼是推薦系統 190

8.2 推薦系統的發展歷史 191

8.2.1 推薦無處不在 192

8.2.2 從千人一面到千人千面 193

8.3 個性化推薦的基本問題 194

8.3.1 推薦系統的輸入 194

8.3.2 推薦系統的輸出 196

8.3.3 個性化推薦的基本形式 197

8.3.4 推薦系統的三大核心問題 198

8.4 典型推薦算法淺析 199

8.4.1 推薦算法的分類 199

8.4.2 典型推薦算法介紹 200

8.4.3 基於矩陣分解的打分預測 207

8.4.4 基於神經網絡的推薦算法 213

8.5 推薦的可解釋性 214

8.6 推薦算法的評價 217

8.6.1 評分預測的評價 218

8.6.2 推薦列表的評價 219

8.6.3 推薦理由的評價 220

8.7 前景與挑戰:我們走了多遠 221

8.7.1 推薦系統面臨的問題 221

8.7.2 推薦系統的新方向 223

8.8 內容回顧與推薦閱讀 225

8.9 參考文獻 226


9 機器寫作——從分析到創造 228

9.1 什麼是機器寫作 228

9.2 藝術寫作 229

9.2.1 機器寫詩 229

9.2.2 AI 對聯 233

9.3 當代寫作 236

9.3.1 機器寫稿 236

9.3.2 機器故事生成 239

9.4 內容回顧 241

9.5 參考文獻 242


10 社交商業數據挖掘——從用戶數據挖掘到商業智能應用 243

10.1 社交媒體平台中的數據寶藏 . 243

10.2 打通網絡社區的束縛:用戶網絡社區身份的鏈指與融合 245

10.3 揭開社交用戶的面紗:用戶畫像的構建 247

10.3.1 基於顯式社交屬性的構建方法 247

10.3.2 基於網絡表示學習的構建方法 249

10.3.3 產品受眾畫像的構建 250

10.4 了解用戶的需求:用戶消費意圖的識別 254

10.4.1 個體消費意圖識別 254

10.4.2 群體消費意圖識別 256

10.5 精準的供需匹配:面向社交平台的產品推薦算法 258

10.5.1 候選產品列表生成 258

10.5.2 基於學習排序算法的推薦框架 259

10.5.3 基於用戶屬性的排序特徵構建 260

10.5.4 推薦系統的整體設計概覽 261

10.6 前景與挑戰 262

10.7 內容回顧與推薦閱讀 263

10.8 參考文獻 264


11 智慧醫療——信息技術在醫療領域應用的結晶 265

11.1 智慧醫療的起源 265

11.2 智慧醫療的廬山真面目 267

11.3 智慧醫療中的人工智能應用 268

11.3.1 醫療過程中的人工智能應用 268

11.3.2 醫療研究中的人工智能應用 272

11.4 前景與挑戰 273

11.5 內容回顧與推薦閱讀 275

11.6 參考文獻 275


12 智慧司法——智能技術促進司法公正 276

12.1 智能技術與法律的碰撞 . 276

12.2 智慧司法相關研究 . 277

12.2.1 法律智能的早期研究 278

12.2.2 判決預測:虛擬法官的誕生與未來 279

12.2.3 文書生成:司法過程簡化 283

12.2.4 要素提取:司法結構化 285

12.2.5 類案匹配:解決一案多判 289

12.2.6 司法問答:讓機器理解法律 292

12.3 智慧司法的期望偏差與應用挑戰 293

12.3.1 智慧司法的期望偏差 293

12.3.2 智慧司法的應用挑戰 294

12.4 內容回顧與推薦閱讀 295

12.5 參考文獻 295


13 智能金融——機器金融大腦 298

13.1 智能金融正當其時 298

13.1.1 什麼是智能金融 298

13.1.2 智能金融與金融科技、互聯網金融的異同 298

13.1.3 智能金融適時而生 299

13.2 智能金融技術 301

13.2.1 大數據的機遇與挑戰 301

13.2.2 智能金融中的自然語言處理 303

13.2.3 金融事理圖譜 307

13.2.4 智能金融中的深度學習 310

13.3 智能金融應用 314

13.3.1 智能投顧 314

13.3.2 智能研報 315

13.3.3 智能客服 316

13.4 前景與挑戰 317

13.5 內容回顧與推薦閱讀 319

13.6 參考文獻 319


14 計算社會學——透過大數據了解人類社會 320

14.1 透過數據了解人類社會 320

14.2 面向社會媒體的自然語言使用分析 321

14.2.1 詞彙的時空傳播與演化 322

14.2.2 語言使用與個體差異 325

14.2.3 語言使用與社會地位 326

14.2.4 語言使用與群體分析 328

14.3 面向社會媒體的自然語言分析應用 330

14.3.1 社會預測 330

14.3.2 霸凌現象定量分析 331

14.4 未來研究的挑戰與展望 332

14.5 參考文獻 333

後記 334


章節試讀:

大數據時代與人工智能

在進入 21 世紀前,很多人預測 21 世紀將會是怎樣的世紀。有人說 21 世紀將是生命科學的時代,也有人說 21 世紀將是知識經濟的時代,不一而足。隨著互聯網的高速發展,大量的事實強有力地告訴我們,21 世紀必將是大數據的時代,是智能信息處理的黃金時代。

美國奧巴馬政府於 2012 年發布大數據研發倡議以來,關於大數據的研究與思考在全球蔚然成風,已經有很多專著面世,既有側重趨勢分析的,如舍恩伯格和庫克耶的《大數據時代》(盛楊燕和周濤教授譯)、涂子沛的《大數據》和《數據之巔》,也有偏重技術講解的,如萊斯科夫等人的《大數據》(王斌教授譯)、張俊林的《大數據日知錄》、楊巨龍的《大數據技術全解》,等等。相信隨著大數據革命的不斷深入推進,會有更多的專著出版。

前人已對大數據的內涵進行過很多探討與總結,其中比較著名的是所謂的“3V”定義:大容量(volume)、高速度(velocity)和多形態(variety)。3V 的概念於 2001 年由麥塔集團(Meta Group)分析師道格·萊尼(Doug Laney)提出,後來被高德納咨詢公司(Gartner Group)正式用來描述大數據。此外,還有很多研究者提出更多的“V”來描述大數據,如真實性(veracity),等等。既然有如此眾多的“珠玉”在前,我們推出本書,當然希望講一點不同的東西,這點不同的東西就是智能。

人工智能一直是研究者們非常感興趣的話題,並且由於眾多科幻電影和小說作品的影響而廣為人知。1946 年,第一台電子計算機問世之後不久,英國數學家艾倫·麥席森·圖靈就發表了一篇名為《計算機器與智能》(Computing Machinery and Intelligence)的重要論文,探討了創造具有智能的機器的可能性,並提出了著名的“圖靈測試”,即如果一台機器與人類進行對話,能夠不被分辨出其機器的身份,就可以認為這台機器具有了智能。自 1956 年在美國達特茅斯舉行的研討會上正式提出“人工智能”的研究提案以來,人們開始了長達半個多世紀的曲折探索。且不去糾結“什麼是智能”這樣哲學層面的命題〔有興趣的讀者可以參閱羅素和諾維格的《人工智能——一種現代方法》(Artificial Intelligence: A Modern Approach),以及傑夫·霍金斯的《智能時代》(On Intelligence)〕,我們先來談談人工智能與大數據的關係。要回答這個問題,我們先來看一個人是如何獲得智能的。一個呱呱墜地、只會哭泣的嬰兒,長成思維健全的成人,至少要經歷十幾年與周圍世界交互和學習的過程。從降臨到這個世界的那一刻起,嬰兒無時無刻不在通過眼睛、耳朵、鼻子、皮膚接收著這個世界的數據信息:圖像、聲音、味道、觸感,等等。你有沒有發現,這些數據無論從規模、速度還是形態來看,無疑是典型的大數據。可以說,人類習得語言、思維等智能的過程,就是利用大數據學習的過程。智能不是無源之水,它並不是憑空從人腦中生長出來的。同樣,人工智能希望讓機器擁有智能,也需要以大數據作為學習的素材。可以說,大數據將是實現人工智能的重要支撐,而人工智能是大數據研究的重要目標之一。但是,在人工智能研究早期,人們並不是這樣認為的。早在 1957 年,由於人工智能系統在簡單實例上的優越性能,研究者們曾信心滿懷地認為,計算機將在 10 年內成為國際象棋冠軍,而通過簡單的句法規則變換和單詞替換就可以實現機器翻譯。事實證明:人們遠遠低估了人類智能的複雜性。即使在國際象棋這樣規則和目標極為簡單清晰的任務上,直到 40 年後的 1997 年,由 IBM 推出的深藍超級計算機才宣告打敗人類世界頂級國際象棋大師卡斯帕羅夫。而在機器翻譯這樣更加複雜的任務上(人們甚至在優質翻譯的標準上都無法達成共識,更無法清晰地告訴機器),計算機至今還無法與人類翻譯的水平相提並論。當時的問題在於,人們低估了智能的深度和複雜度。智能是分不同層次的。對於簡單的智能任務(如對有限句式的翻譯等),我們簡單制定幾條規則就能完成。但是對於語言理解、邏輯推理等高級智能,簡單方法就顯得力不從心。生物界中,從簡單的單細胞生物進化到人類的過程,也是智能不斷進化的過程。最簡單的單細胞生物草履蟲,雖然沒有神經系統,卻已經能夠根據外界信號和刺激進行反應,實現趨利避害——我們可以將其視作最簡單的智能。而俄國高級神經活動生理學奠基人伊萬·彼得羅維奇·巴甫洛夫的關於狗的條件反射實驗,則向我們證明了相對更高級的智能水平:能根據鈴聲推斷食物即將出現,也就是可以根據兩種外界信號(鈴聲與食物)的關聯關係實現簡單的因果推理。人類智能則是智能的最高級形式,擁有語言理解、邏輯推理與想象等獨特的能力。我們可以發現,低級智能只需小規模的簡單數據或規則的支持,而高級智能則需要大規模的複雜數據的支持。

同樣重要的,高級智能還需要獨特計算架構的支持。很顯然,人腦結構就與狗等動物有著本質的不同,因此,即使將一隻狗像嬰兒一樣撫育,也不能指望它能完全學會和理解人類的語言,並像人一樣思維。受到生物智能的啟發,我們可以總結出如下圖所示的基本結論:不同規模數據的處理,需要不同的計算框架,產生不同級別的智能。

關於人工智能是否要完全照搬人類智能的工作原理,目前仍然爭論不休。有人舉例:雖然人們受到■鳥的啟發發明了■機,但其■行原理(空氣動力學)與■鳥有本質不同;同樣,生物界都在用雙腳或四腿行走、奔跑,人們卻發明了輪子和汽車實現快速移動。然而不可否認,大自然無疑是我們最好的老師。人工智能固然不必完全複製人類智能,但是知己知彼,方能百戰不殆。生物智能帶來的啟示已經在信息處理技術發展中得到了印證。谷歌研究員、美國工程院院士 Jeff Dean 曾對大數據做出過類似結論:“對處理數據規模 X 的合理設計可能在 10X 或 100X 規模下就會變得不合理。(Right design at X may be very wrong at 10X or 100X.)”也就是說,大數據處理也需要專門設計新穎的計算架構。

而與人工智能密切相關的機器學習、自然語言處理、圖像處理、語音處理等領域,近年來都在大規模數據的支持下取得了驚人的進展。我們可以確信,大數據是人工智能發展的必由之路。

人工智能的下一個里程碑

當下,以深度學習為代表的計算框架在很多具體任務上取得了重大的成果,甚至有媒體和公眾已經開始因人工智能取代人類的可能性而恐慌。然而,理性地看,深度學習的處理能力和效率與人類大腦相比仍有巨大差距。因此,大數據智能並非孕育人工智能的終極之道。隨著技術的進步和研究的深入,現有解決方案必然觸及天花板,進入瓶頸期。

人腦擁有現有計算框架不可比擬的優勢。例如,雖然人腦中的信號傳輸速度要遠低於計算機中的信息傳遞速度,但是人腦在很多智能任務上的處理效率遠高於計算機,例如在眾多聲音中快速識別出叫自己名字的聲音,通過線條漫畫認出名人,複雜數學問題的推導求解,快速閱讀理解一篇文章,等等。可見,在計算速度受限的情況下,人腦一定擁有某種獨特的計算框架,才能完成這些令人嘆為觀止的智能任務。

那麼人工智能的下一個里程碑是什麼呢?我們猜想,可能是神經科學及其相關學科。一直以來,神經科學都在探索各種觀測大腦活動的工具和方法,並做出了大量的實證和建模工作。隨著光控基因技術(optogenetics)和藥理基因技術(pharmacogenetics)等新技術的發展,人們擁有了在時間和空間上更加精確地監測和控制大腦活動的能力,從而有望徹底發現人腦的神經機制。一旦人腦的神經機制被發現,有理由相信,人們可以迅速通過仿真等方式,在計算機中實現類似甚至更高效的計算框架,從而推動實現人工智能的最終目標。此外,量子計算、生物計算、新型芯片材料等領域的發展,都為我們展現出無限可能的未來。

當社會大數據、計算能力和計算框架三方面發展到一定階段,融合產生了大數據智能。相信隨著更大規模數據、更強計算能力和更合理計算框架的推出,人工智能也會不斷向前發展。然而,正如前幾年社會各界對物聯網、雲計算的追捧,最近社會上對大數據和人工智能概念的炒作愈演愈烈,產生了很多不切實際的幻想和泡沫。對於這個領域重新得到青睞,我們當然感到欣慰,但是,也不妨多一些謹慎和冷靜。鑒古知今,回顧人工智能的曲折發展史(《人工智能——一種現代方法》一書中有詳細介紹),我們看到,在過度的期望破滅之後,隨之而來的就是嚴冬。在大數據智能萬眾矚目的今天,我們不妨心中常存對於凜冬將至的警惕。

事物總是在不斷自我否定中螺旋式前進的,人工智能的探求之路也是如此。我們相信大數據是獲得智能的必由之路,但現在的做法不見得就一定正確。多年之後,我們也許會用截然不同的辦法處理大數據。然而這些都不重要,重要的是一顆執著的心和堅持不懈的信念。就像深度學習領域的巨人 Geoffrey Hinton、Yann LeCun 等,曾坐了十幾年的冷板凳,研究成果屢屢被拒,到了 2019 年才榮膺計算機領域最高獎“圖靈獎”。對真正的學者而言,研究領域是冷門還是熱門也許不重要,反而會成為對從業者的試金石——只有在寒冬中堅持下來的種子,才能等到春天綻放。

關於本書

本書前身《大數據智能——互聯網時代的機器學習和自然語言處理技術》出版於2016 年,作為一本技術科普書,在社會上得到了一些正面的反響。於是,我們邀請更多作者加入,在原有的 8 章內容基礎上新增了 6 章內容。此外,對原有章節內容進行了適當更新,使內容更加全面。

本書並不想在已經熊熊燃燒的大數據火堆上再添一把柴。本書希望從人工智能這個新的角度,總結大數據智能取得的成果、侷限性及未來可能的發展前景。本書共分 14 章,從大數據智能基礎、技術和應用三個方面展開介紹。本書基礎部分有 3 章。第 1 章以深度學習為例介紹大數據智能的計算框架;第 2 章以知識圖譜為例介紹大數據智能的知識庫;第 3 章介紹大數據的計算處理系統。在大數據智能的技術和應用部分,我們選擇文本大數據作為主要場景進行介紹,主要原因在於,語言是人類智能的集中體現,語言理解也是人工智能的終極目標,圖靈測試的設置是以語言作為媒介的。技術部分有 6 章,分別介紹主題模型、機器翻譯、情感分析與意見挖掘、智能問答與對話系統、個性化推薦系統、機器寫作等數據智能關鍵技術。應用部分有 5 章,分別介紹社交商業數據挖掘、智慧醫療、智慧司法、智能金融、計算社會學等典型應用場景。

大數據智能仍然是一個高速發展的領域。為了讓讀者能夠了解這個領域的前沿進展,本書專門設置後記,為初學者追蹤大數據智能的最新學術資料提供了建議。大數據智能方向眾多,每位學者術業有專攻,很難獨力完成所有章節內容。因此,我們邀請了多位作者撰寫他們所擅長方向的章節。他們都在相關領域開展了多年研究工作,發表過高水平的論文。

2019 年 11 月於北京


圖片預覽:

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。