總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
SQL機器學習庫MADlib技術解析(配件另行下載)
 作  者: 王雪迎
 出版單位: 清華大學
 出版日期: 2019.02
 進貨日期: 2019/5/8
 ISBN: 9787302518945
 開  本: 16 開    
 定  價: 593
 售  價: 474
  會 員 價: 435
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

作為一名資料庫開發人員或DBA,當面對聚類分析或主成分分析等問題時可能會一籌莫展。原因很簡單,用經典SQL語言實現這類複雜模型基本是不可能的。現在,DBA利用MADlib,只需使用SQL查詢就能實現簡單的機器學習,這也正是編寫本書的初衷。MADlib與其他機器學習工具具有完全不同的設計理念。它不是面向程式師的,而是面向資料庫開發人員或DBA的,是基於SQL的大資料機器學習庫。MADlib將SQL的簡單易用性與機器學習的複雜演算法相結合,充分利用了兩者的優勢和特點。對於廣大傳統資料庫應用技術人員來說,學習和從事機器學習工作的門檻將大大降低。對用戶而言,MADlib提供了可在SQL查詢語句中調用的函數,不僅包括基本的線性代數運算和統計函數,還提供了常用的、現成的機器學習模型函數,實現了分類、聚類、關聯、回歸、預測、評估等應用中的常見演算法。使用者不需要深入瞭解演算法的程式實現細節,只要搞清楚各函數中相關參數的含義、提供正確的入參並能夠理解和解釋函數的輸出結果即可。


內容簡介:

MADlib是一套SQL中的大資料機器學習庫。通常SQL查詢能發現資料*明顯的模式和趨勢,但要想獲取資料中*為有用的資訊,需要的則是一套牢固紮根于數學和應用數學的技能,這就是機器學習。如果將SQL的簡單易用與MADlib機器學習的複雜演算法結合起來,就能實現簡單的機器學習功能。 本書分為11章,從MADlib的基本概念、MADlib的架構、支援的模型類型與功能入手,詳細解析MADlib各種模型的具體用法,包括資料類型、矩陣分解、資料轉換、資料探索、主成分分析、回歸、時間序列分析、分類、聚類、關聯規則、圖演算法、模型評估等。每種模型將從背景知識、函數語法、應用示例三方面進行 說明。 本書適合MADlib機器學習的初學者、想學習MADlib機器學習的DBA以及從事資料分析與挖掘的高級技術人員閱讀,也適合高等院校與培訓學校相關專業的師生教學參考。


作者簡介:

王雪迎 ,畢業于中國地質大學電腦專業,高級工程師,20年資料庫、資料倉庫相關技術工作;先後供職于北京現代商業資訊技術有限公司、北京線上九州資訊技術服務有限公司、華北計算技術研究所、北京優貝線上網路科技有限公司,擔任DBA、資料架構師等職位;著有圖書《Hadoop構建資料倉庫實踐》和《HAWQ資料倉庫與資料採擷實戰》。


圖書目錄:

第1章 MADlib基礎 1
1.1 基本概念 1
1.1.1 MADlib是什麼 1
1.1.2 MADlib的設計思想 2
1.1.3 MADlib的工作原理 3
1.1.4 MADlib的執行流程 4
1.1.5 MADlib架構 5
1.2 MADlib的功能 6
1.2.1 MADlib支援的模型類型 6
1.2.2 MADlib的主要功能模組 7
1.3 MADlib的安裝與卸載 9
1.3.1 確定安裝平臺 9
1.3.2 下載MADlib二進位壓縮包 10
1.3.3 安裝MADlib 10
1.3.4 卸載MADlib 12
1.4 小結 13
第2章 資料類型 14
2.1 向量 14
2.1.1 MADlib中的向量操作函數 15
2.1.2 稀疏向量 23
2.2 矩陣 30
2.2.1 矩陣定義 31
2.2.2 MADlib中的矩陣表示 31
2.2.3 MADlib中的矩陣運算函數 32
2.3 小結 49
第3章 資料轉換 50
3.1 鄰近度 50
3.1.1 MADlib的鄰近度相關函數 50
3.1.2 距離度量的中心化和標準化 57
3.1.3 選取正確的鄰近度度量 58
3.2 矩陣分解 59
3.2.1 低秩矩陣分解 59
3.2.2 奇異值分解 70
3.3 透視表 87
3.4 分類變數編碼 97
3.5 小結 110
第4章 資料探索 111
4.1 描述性統計 111
4.1.1 皮爾森相關 111
4.1.2 匯總統計 117
4.2 概率統計 125
4.2.1 概率 125
4.2.2 統計推論 133
4.3 主成分分析 147
4.3.1 背景知識 147
4.3.2 MADlib的PCA相關函數 149
4.3.3 MADlib的PCA應用示例 155
4.4 小結 160
第5章 回歸 161
5.1 線性回歸 161
5.1.1 背景知識 161
5.1.2 MADlib的線性回歸相關函數 164
5.1.3 線性回歸示例 166
5.2 非線性回歸 171
5.2.1 背景知識 171
5.2.2 MADlib的非線性回歸相關
函數 172
5.2.3 非線性回歸示例 175
5.3 邏輯回歸 179
5.3.1 背景知識 179
5.3.2 MADlib的邏輯回歸相關函數 180
5.3.3 邏輯回歸示例 182
5.4 多類回歸 187
5.4.1 背景知識 187
5.4.2 MADlib的多類回歸相關函數 190
5.4.3 多類回歸示例 192
5.5 序數回歸 196
5.5.1 背景知識 196
5.5.2 MADlib的序數回歸相關函數 197
5.5.3 序數回歸示例 200
5.6 彈性網路回歸 202
5.6.1 背景知識 202
5.6.2 MADlib的彈性網路回歸相關
函數 204
5.6.3 彈性網路回歸示例 209
5.7 小結 221
第6章 時間序列分析 222
6.1 背景知識 222
6.1.1 時間序列分析方法 222
6.1.2 ARIMA模型 223
6.2 MADlib中ARIMA相關函數 225
6.3 時間序列分析示例 228
6.4 小結 232
第7章 分類 233
7.1 K近鄰 233
7.1.1 背景知識 233
7.1.2 MADlib中K近鄰函數 235
7.1.3 K近鄰示例 236
7.2 樸素貝葉斯 240
7.2.1 背景知識 240
7.2.2 MADlib中樸素貝葉斯分類
相關函數 242
7.2.3 樸素貝葉斯分類示例 244
7.3 支援向量機 249
7.3.1 背景知識 249
7.3.2 MADlib的支援向量機相關
函數 252
7.3.3 支援向量機示例 258
7.4 決策樹 264
7.4.1 背景知識 264
7.4.2 MADlib的決策樹相關函數 267
7.4.3 決策樹示例 272
7.5 隨機森林 281
7.5.1 背景知識 281
7.5.2 MADlib的隨機森林相關函數 282

7.5.3 隨機森林示例 287
7.6 小結 293
第8章 聚類 294
8.1 背景知識 294
8.1.1 聚類的概念 294
8.1.2 k-means方法 295
8.2 MADlib的k-means相關函數 297
8.2.1 訓練函數 298
8.2.2 簇分配函數 300
8.2.3 輪廓係數函數 301
8.3 k-means示例 301
8.4 小結 307
第9章 關聯規則 308
9.1 背景知識 308
9.1.1 基本概念 308
9.1.2 Apriori演算法 311
9.2 MADlib的Apriori演算法函數 312
9.3 Apriori應用示例 313
9.4 小結 319
第10章 圖演算法 320
10.1 背景知識 320
10.1.1 基本概念 320
10.1.2 常見圖演算法 321
10.1.3 單源最短路徑 323
10.2 MADlib的單源最短路徑相關函數 324
10.3 單源最短路徑示例 325
10.4 小結 327
第11章 模型評估 328
11.1 交叉驗證 328
11.1.1 背景知識 328
11.1.2 MADlib的交叉驗證相關
函數 331
11.1.3 交叉驗證示例 333
11.2 預測度量 336
11.3 小結 342


章節試讀:

前 言
從2016年AlphaGo在人機大戰中勝出以來,AI(Artificial Intelligence,人工智慧)已然成為時下最熱門的概念之一。似乎所有人嘴邊都掛著“AI”一詞,大批程式師躍躍欲試,轉向研究這種“全新”的技術。人工智慧的研究歷史有著一條從以“推理”為重點,到以“知識”為重點,再到以“學習”為重點的自然、清晰的脈絡。顯然,機器學習是實現人工智慧的一條途徑,即以機器學習為手段解決人工智慧中的現實問題。在實踐過程中,大多數人工智慧處理任務其實是用機器學習的方式完成的。機器學習可以用程式和演算法自動學習,只要被設計好,程式就可以進行自我優化。同時,機器學習需要一定數量的訓練資料,用於構建來自過往經驗的知識(通常指訓練後形成的數學模型)。機器學習目前在實踐中最重要的是預測功能。比如訓練結束後,現在有一個新的資料集X,需要預測其分類,機器學習演算法會根據這個新資料與訓練後形成的知識相匹配,然後將這個資料集X分類到某類C去。推薦系統則是另一個比較常見的機器學習使用場景。
經過三十多年的發展,機器學習已成為一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。很明顯,自己開發機器學習演算法需要具有極強的數學功底。幸運的是,很多套裝軟體提供絕大多數常用演算法,無論是側重於統計的SAS、SPSS還是流行的MATLAB、R、Python、TensorFlow等。它們都是面向程式師的系統或語言,重點在於由程式師自己利用系統提供的基本計算方法或函數,通過程式設計的方式完成實際所需的分析 模型。
作為一名資料庫開發人員或DBA,當面對聚類分析或主成分分析等問題時可能會一籌莫展。原因很簡單,用經典SQL語言實現這類複雜模型基本是不可能的。現在,DBA利用MADlib,只需使用SQL查詢就能實現簡單的機器學習,這也正是編寫本書的初衷。MADlib與其他機器學習工具具有完全不同的設計理念。它不是面向程式師的,而是面向資料庫開發人員或DBA的,是基於SQL的大資料機器學習庫。MADlib將SQL的簡單易用性與機器學習的複雜演算法相結合,充分利用了兩者的優勢和特點。對於廣大傳統資料庫應用技術人員來說,學習和從事機器學習工作的門檻將大大降低。對用戶而言,MADlib提供了可在SQL查詢語句中調用的函數,不僅包括基本的線性代數運算和統計函數,還提供了常用的、現成的機器學習模型函數,實現了分類、聚類、關聯、回歸、預測、評估等應用中的常見演算法。使用者不需要深入瞭解演算法的程式實現細節,只要搞清楚各函數中相關參數的含義、提供正確的入參並能夠理解和解釋函數的輸出結果即可。
一年來,我一直在撰寫MADlib相關的文章和博客,並在利用MADlib實現機器學習演算法上做了一些基礎的技術實踐。本書就是對上述工作的系統歸納與總結。全書共分11章,從MADlib的基本概念入手,首先介紹MADlib的工作原理、執行流程、基礎架構、支援的模型與功能,以及MADlib的安裝與卸載;然後詳細解析MADlib各種模型的具體用法,其中包括資料類型、資料轉換、資料探索、回歸、時間序列分析、分類、聚類、關聯規則、圖演算法、模型評估十個大類(每個大類用一章的篇幅,從背景知識、函數用法、應用示例三方面進行詳細說明)。本書中的所有討論都以MADlib 1.10版本為基礎,重點在於說明MADlib提供了哪些模組演算法和函數、用途,以及如何在SQL中調用。由於本書偏重應用,因此我們對每種演算法相關的數學概念都只是淺嘗輒止,並沒有進行詳細的數學推導。
本書適合資料庫應用開發或管理人員、資料採擷工程師、資料分析師或其他機器學習類技術人員閱讀,也適合高等院校和培訓學校相關專業的師生教學參考。
在本書編寫過程中,得到了很多人的幫助與支持。感謝CSDN提供的技術分享平臺,為我提供了一個將博客文章整理成書的機會。感謝優貝線上的所有同事,特別是技術部的同事,他們在工作中的鼎力相助,使我有更多的時間投入到本書的寫作中。最後,感謝家人對我一如既往地支持。
因為水準有限,疏漏之處在所難免,希望廣大讀者批評指正。
原始程式碼下載
本書配套的代碼及相關資料可以掃描下面的二維碼獲取:

如果下載有問題,請聯繫,郵件主題為“MADlib技術解析”。



著 者
2018年11月

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。