大數據時代的資料庫處理:Spark SQL親自動手做(熱銷版)

,

作者:紀涵, 靖曉文, 趙政達

出版社:佳魁資訊

ISBN:9789863797814

$45.70

產品號碼: 132540 貨號: 9789863797814 分類: , 標籤: , , , , , ,

  全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。

  適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。

本書特色

  Spark SQL是 Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。

目錄

第一部分 入門篇
1初識Spark SQL   
1.1  Spark SQL的前世今生
1.2  Spark SQL能做什麼
2 Spark安裝、程式設計環境架設以及包裝傳送
2.1  Spark的簡易安裝
2.2  準備撰寫Spark應用程式的IDEA環境
2.3  將撰寫好的Spark應用程式套件裝成jar傳送到Spark上

第二部分 基礎篇
3 Spark上的RDD程式設計
3.1  RDD基礎
3.2  RDD簡單實例—wordcount  
3.3  建立RDD      
3.4  RDD操作
3.5  向Spark傳遞函數
3.6  常見的轉化操作和行動操作
3.7  深入了解RDD       
3.8  RDD 快取、持久化
3.9  RDD checkpoint容錯機制
4 Spark SQL程式設計入門
4.1  Spark SQL概述
4.2  Spark SQL程式設計入門範例
5 Spark SQL的DataFrame操作大全
5.1  由JSON檔案產生所需的DataFrame物件
5.2  DataFrame上的行動操作
5.3  DataFrame上的轉化操作
6 Spark SQL支援的多種資料來源
6.1  概述
6.2  典型結構化資料來源

第三部分 實作篇
7 Spark SQL 工程實戰之以WiFi探針為基礎的商業大數據分析技術
7.1  功能需求
7.2  系統架構
7.3  功能設計
7.4  資料庫結構
7.5  本章小結
8 第一個Spark SQL應用程式
8.1  完全分散式環境架設
8.2  資料清洗
8.3  資料處理流程
8.4  Spark程式遠端偵錯
8.5  Spark的Web介面
8.6  本章小結

第四部分 最佳化篇
9 讓Spark程式再快一點
9.1  Spark執行流程
9.2  Spark記憶體簡介
9.3  Spark的一些概念
9.4  Spark程式設計四大守則
9.5  Spark最佳化七式
9.6  解決資料傾斜問題
9.7  Spark 執行引擎Tungsten 簡介
9.8  Spark SQL解析引擎Catalyst 簡介
9.9  本章小結

 

作者介紹

作者簡介

紀涵

  資料採擷、雲計算愛好者,曾負責多個中小型網站的開發維護工作,參與開發設計多款面向校園服務的App,與多個基於Hadoop、Spark平台的大數據應用,現主要研究方向為機器學習、資料採擷。
 

出版地

台灣

出版日期

10/04/2019

印刷

單色印刷

版別

二版

裝訂

平裝

語系

繁體中文

頁數

272