總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
Spark機器學習:核心技術與實踐
 叢書名稱: 大數據技術叢書
 作  者: (美)亞歷克斯•特列斯 /(美)馬克斯•帕普拉/(美)邁克爾•馬洛赫拉瓦
 出版單位: 機械工業
 出版日期: 2018.06
 進貨日期: 2018/7/21
 ISBN: 9787111598466
 開  本: 16 開    
 定  價: 518
 售  價: 414
  會 員 價: 380
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

作為一名具有機器學習和統計背景的開發人員,你是否感受到了當前緩慢的“小數據”機器學習工具的限制?那麼本書就是為你而寫!在本書中,你將會使用Spark創建可擴展的機器學習應用,為現代的數據驅動業務提供支持。

本書從MLlib和H2O庫定義的機器學習原語開始,你將學到如何使用二分類檢測由CERN粒子對撞機產生的大量數據中的希格斯波色子,並使用多元分類的集成方法對日常身體活動進行分類。接下來,你將解決一個涉及航班延誤預測的典型回歸問題,並編寫複雜的Spark流水線。你將在doc2vec演算法和K-means聚


內容簡介:

本書採用理論與大量實例相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習演算法。通過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習演算法的複雜性,通過數據分析產生有價值的數據洞察力。


作者簡介:

About the Authors?關 於 作 者
Alex Tellez是一名終身的數據駭客/愛好者,對數據科學及其在商業問題上的應用充滿了激情。他在多個行業擁有豐富的經驗,包括銀行業、醫療保健、線上約會、人力資源和線上遊戲。Alex還在各種人工智慧/機器學習會議上進行過多次演講,同時也在大學講授關於神經網路的課程。閒暇時間,Alex喜歡和家人在一起,騎自行車,並利用機器學習來滿足他對法國葡萄酒的好奇心!
首先,我要感謝Michal與我一起編寫本書。同樣作為的機器學習(Machine Learning,以下簡稱ML)愛好者、自行車愛好者、跑者和父親,在一年來共同努力的過程中,我們對彼此有了更深的瞭解。換句話說,沒有Michal的支持和鼓勵,本書是不可能完成的。
接下來,我要感謝我的媽媽、爸爸和哥哥Andres,從我出生天直到現在的每一步,你們都陪伴在我的周圍。毋庸置疑,我的哥哥仍會是我的英雄,是我永遠仰望的人,是我的指路燈。當然,還要感謝我美麗的妻子Denise和女兒Miya,在每個夜晚和週末給予我寫作上的關心和支持。我無法描述你們對我而言意味著多少,你們是我保持持續創作的靈感和動力。對我的女兒Miya,我的希望是,有一天當你拿起這本書時,會意識到你的老爸並不像看起來那麼傻。
後,我也要感謝你——讀者,感謝你對這個令人興奮的領域以及難以置信的技術感興趣。無論你是一名經驗豐富的ML專家,還是希望立足的新人,你都會找到適合自己的內容,我希望你能像Michal和我一樣,從本書中獲得很多。
Max Pumperla是一名數據科學家和工程師,專注於深度學習及其應用。他目前在Skymind擔任深度學習工程師,並且是aetros.com的聯合創始人。Max是幾個Python軟體包的作者和維護者,包括elephas,一個使用Spark的分佈式深度學習庫。他的開源足跡包括對許多流行的機器學習庫的貢獻,如keras、deeplearning4j和hyperopt。他擁有漢堡大學的代數幾何博士學位。
Michal Malohlava是Sparkling Water的創建者、極客和開發者,Java、Linux、編程語言愛好者,擁有10年以上的軟體開發經驗。他於2012年在布拉格的查爾斯大學獲得博士學位,並在普渡大學攻讀博士後。
在學習期間,他關注利用模型驅動方法和領域特定語言構建分佈式、嵌入式、即時和模組化系統,參與了各種系統的設計和開發,包括SOFA和分形組件系統以及jPapabench控制系統。
現在,他的主要興趣是大數據計算。他參與了高級大數據計算平臺H2O的開發,並將其嵌入到Spark引擎中作為Sparkling Water專案發佈。
我要感謝我的妻子Claire,感謝她對於我的愛和鼓勵。


圖書目錄:

譯者序
關於作者
前言
第1章 大規模機器學習和Spark入門 1
1.1 數據科學 2
1.2 數據科學家:21世紀最炫酷的職業 2
1.2.1 數據科學家的一天 3
1.2.2 大數據處理 4
1.2.3 分佈式環境下的機器學習演算法 4
1.2.4 將數據拆分到多臺機器 6
1.2.5 從Hadoop MapReduce到Spark 6
1.2.6 什麼是Databricks 7
1.2.7 Spark包含的內容 8
1.3 H2O.ai簡介 8
1.4 H2O和Spark MLlib的區別 10
1.5 數據整理 10
1.6 數據科學:一個迭代過程 11
1.7 小結 11
第2章 探索暗物質:希格斯玻色子 12
2.1 Ⅰ型錯誤與Ⅱ型錯誤 12
2.1.1 尋找希格斯玻色子 13
2.1.2 LHC和數據的創建 13
2.1.3 希格斯玻色子背後的理論 14
2.1.4 測量希格斯玻色子 14
2.1.5 數據集 14
2.2 啟動Spark與加載數據 15
2.2.1 標記點向量 22
2.2.2 創建訓練和測試集合 24
2.2.3 第一個模型:決策樹 26
2.2.4 下一個模型:集合樹 32
2.2.5 最後一個模型:H2O深度學習 37
2.2.6 構建一個3層DNN 39
2.3 小結 45
第3章 多元分類的集成方法 46
3.1 數據 47
3.2 模型目標 48
3.2.1 挑戰 48
3.2.2 機器學習工作流程 48
3.2.3 使用隨機森林建模 61
3.3 小結 78
第4章 使用NLP和Spark Streaming預測電影評論 80
4.1 NLP簡介 81
4.2 數據集 82
4.3 特徵提取 85
4.3.1 特徵提取方法:詞袋模型 85
4.3.2 文本標記 86
4.4 特徵化——特徵哈希 89
4.5 我們來做一些模型訓練吧 92
4.5.1 Spark決策樹模型 93
4.5.2 Spark樸素貝葉斯模型 94
4.5.3 Spark隨機森林模型 95
4.5.4 Spark GBM模型 96
4.5.5 超級學習器模型 97
4.6 超級學習器 97
4.6.1 集合所有的轉換 101
4.6.2 使用超級學習器模型 105
4.7 小結 105
第5章 word2vec預測和聚類 107
5.1 詞向量的動機 108
5.2 word2vec解釋 108
5.2.1 什麼是單詞向量 108
5.2.2 CBOW模型 110
5.2.3 skip-gram模型 111
5.2.4 玩轉辭彙向量 112
5.2.5 余弦相似性 113
5.3 doc2vec解釋 113
5.3.1 分佈式記憶體模型 113
5.3.2 分佈式詞袋模型 114
5.4 應用word2vec並用向量探索數據 116
5.5 創建文檔向量 118
5.6 監督學習任務 119
5.7 小結 123
第6章 從點擊流數據中抽取模式 125
6.1 頻繁模式挖掘 126
6.2 使用Spark MLlib進行模式挖掘 130
6.2.1 使用FP-growth進行頻繁模式挖掘 131
6.2.2 關聯規則挖掘 136
6.2.3 使用prefix span進行序列模式挖掘 138
6.2.4 在MSNBC點擊流數據上進行模式挖掘 141
6.3 部署模式挖掘應用 147
6.4 小結 154
第7章 使用GraphX進行圖分析 155
7.1 基本的圖理論 156
7.1.1 圖 156
7.1.2 有向和無向圖 156
7.1.3 階和度 157
7.1.4 有向無環圖 158
7.1.5 連通分量 159
7.1.6 樹 160
7.1.7 多重圖 160
7.1.8 屬性圖 161
7.2 GraphX分佈式圖計算引擎 162
7.2.1 GraphX中圖的表示 163
7.2.2 圖的特性和操作 165
7.2.3 構建和加載圖 170
7.2.4 使用Gephi可視化圖結構 172
7.2.5 圖計算進階 178
7.2.6 GraphFrame 181
7.3 圖演算法及其應用 183
7.3.1 聚類 183
7.3.2 頂點重要性 185
7.4 GraphX在上下文中 188
7.5 小結 189
第8章 Lending Club借貸預測 190
8.1 動機 190
8.1.1 目標 191
8.1.2 數據 192
8.1.3 數據字典 192
8.2 環境準備 193
8.3 數據加載 193
8.4 探索——數據分析 194
8.4.1 基本清理 194
8.4.2 預測目標 200
8.4.3 使用模型評分 221
8.4.4 模型部署 224
8.5 小結 229


章節試讀:

大數據是幾年前我們開始探索用Spark進行機器學習時的初衷。我們希望建立的機器學習程式能夠充分利用大量數據訓練模型,但一開始這並不容易。Spark仍在演進階段,還沒有包含強大的機器學習庫,而且我們也在試圖弄清楚建立一個機器學習程式到底意味著什麼。
慢慢地,我們開始探索Spark生態系統的各個角落,追隨它的演進。對我們來說,最關鍵的是需要一個強大的機器學習庫,能夠提供像R和Python庫那樣的功能。這對我們來說比較容易,因為當時我們正積極參與H2O機器學習庫和它的一個叫作Sparkling Water的分支

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。