總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化技術及設備
 
 
 
 
大數據預處理技術^tn
 叢書名稱: 數據中國百校工程項目系列教材
 作  者: 朱曉姝/許桂秋/梁權/黃京絡/唐承艷/陳麗斌/林高峰
 出版單位: 人民郵電
 出版日期: 2019.04
 進貨日期: 2019/8/23
 ISBN: 9787115503510
 開  本: 16 開    
 定  價: 413
 售  價: 330
  會 員 價: 303
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

資料預處理是資料採擷中必不可少的關鍵一步,更是進行資料採擷前的準備工作,一方面保證挖掘資料的正確性和有效性;另一方面通過對資料格式和內容的調整,使資料更符合挖掘的需要。


內容簡介:

作者針對大資料問題,分析如何進行大資料的導入,如何使用大資料工具進行快速的資料預處理,以及如何構建資料倉庫。詳細講解了Kettle工具的使用、資料集成、Kettle作業項設計等。


作者簡介:

許桂秋 男,85年出生,電腦學士,工商管理碩士。 2009年-2012年,中國石油天然氣股份有限公司,負責專案管理工作,企業內部高級講師; 2012年-2015年,曙光資訊產業股份有限公司,負責專案管理與企業內部培訓工作,企業內部高級講師; 2016年至今,曙光瑞翼教育合作中心,教學運營總監,負責各高校合作專案部的具體運營管理及指導工作。


圖書目錄:

第1章 資料預處理概述 1

1.1 資料預處理的背景與目的 1

1.1.1 資料預處理的背景:資料品質 1

1.1.2 資料預處理的目的 3

1.2 資料預處理的流程 3

1.2.1 資料清理 3

1.2.2 資料集成 5

1.2.3 數據變換 6

1.2.4 數據歸約 8

1.2.5 資料預處理的注意事項 12

1.3 資料預處理的工具 12

第2章 Kettle工具的初步使用 14

2.1 Kettle的安裝 14

2.1.1 Java的安裝 14

2.1.2 Kettle的下載安裝與Spoon的啟動 19

2.2 Kettle的使用 19

2.2.1 轉換的基本概念 19

2.2.2 第一個轉換案例 21

第3章 基於Kettle的資料導入與匯出 42

3.1 基於檔的資料導入與匯出 42

3.1.1 文字檔的導入與匯出 42

3.1.2 文字檔的導入與匯出案例 43

3.1.3 Excel文件的導入與匯出 49

3.1.4 Excel文件的導入與匯出案例 50

3.1.5 XML文件的導入與匯出 57

3.1.6 XML文件的導入與匯出案例 57

3.1.7 JSON文件的導入與匯出 62

3.1.8 JSON文件的導入與匯出案例 62

3.2 基於資料庫的資料導入與匯出 66

3.2.1 關係型數據庫的資料導入與匯出 67

3.2.2 MySQL資料庫的資料導入與匯出案例 69

3.3 基於Web的資料導入與匯出 75

3.3.1 HTML數據的導入與匯出 76

3.3.2 HTML數據的導入與匯出案例 76

3.3.3 基於HTTP GET請求的導入與匯出 80

3.3.4 基於HTTP GET請求的導入與匯出案例 80

3.4 基於CDC變更資料的導入與匯出 83

3.4.1 基於來源資料的CDC 83

3.4.2 基於來源資料的CDC案例 84

3.4.3 基於觸發器的CDC 95

3.4.4 基於觸發器的CDC案例 95

3.4.5 基於快照的CDC 105

3.4.6 基於快照的CDC案例 105

3.4.7 基於日誌的CDC 109

3.4.8 基於日誌的CDC案例 109

第4章 資料清理 112

4.1 資料清理概述 112

4.1.1 常用的資料清理步驟 112

4.1.2 字串清理 113

4.1.3 欄位清理 118

4.1.4 使用參照表清理資料 125

4.1.5 資料校驗 130

4.2 資料排重 134

4.2.1 如何識別重復資料 135

4.2.2 去除完全重復資料 135

4.2.3 去除不完全重復資料 136

4.3 使用腳本元件進行資料清理 140

4.3.1 使用JavaScript代碼元件清理資料 140

4.3.2 使用規則運算式元件清理資料 142

4.3.3 使用其他腳本元件清理資料 145

第5章 Kettle作業設計 150

5.1 作業的概念及組成 151

5.1.1 作業項 151

5.1.2 跳 152

5.1.3 注釋 152

5.2 作業的執行方式 152

5.2.1 回溯 152

5.2.2 多路徑和回溯 153

5.2.3 並存執行 153

5.3 作業的創建及常用作業項 154

5.3.1 創建作業 155

5.3.2 “START”作業項 155

5.3.3 “作業”作業項 156

5.3.4 “轉換”作業項 158

5.4 變數 158

5.4.1 定義變數 159

5.4.2 使用變數 160

5.5 監控 161

5.5.1 日誌 161

5.5.2 郵件通知 162

5.6 命令列啟動 163

5.7 作業實驗 165

第6章 構建資料倉庫 193

6.1 構建維度表 193

6.1.1 管理各種鍵 193

6.1.2 維度表的載入 197

6.1.3 緩慢變化維度 198

6.2 構建事實表 203

6.2.1 批量載入 203

6.2.2 查找維度 206

6.2.3 事實表的處理 207

第7章 基於Python的資料導入與匯出 216

7.1 Pandas 216

7.1.1 Series 216

7.1.2 DataFrame 219

7.2 文字檔的導入與匯出 220

7.2.1 導入CSV文件 221

7.2.2 匯出CSV檔 223

7.2.3 JSON格式資料的導入與匯出 224

7.3 二進位檔案的導入與匯出 225

7.4 資料庫的導入與匯出 226

7.4.1 關係型數據庫的導入與匯出 226

7.4.2 非關係型數據庫的導入與匯出 227

第8章 基於Python的資料整理 231

8.1 合併多個資料集 231

8.1.1 使用key進行DataFrame合併 231

8.1.2 使用index進行DataFrame合併 234

8.1.3 沿著橫軸或縱軸串接 235

8.2 資料重塑 237

8.2.1 多級索引資料的重塑 238

8.2.2 應用pivot方法重塑資料 239

8.3 資料轉換 242

8.3.1 移除重復資料 242

8.3.2 利用函數或映射進行資料轉換 243

8.3.3 值轉換 243

8.3.4 重命名軸索引 244

8.3.5 離散化和麵元劃分 245

8.3.6 檢測或過濾異常值 247

8.3.7 排列和隨機採樣 248

8.3.8 計算指標/啞變數 249

參考文獻 253

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。