本書全面介紹了數(shù)據(jù)開發(fā)利用技術(shù),包括大數(shù)據(jù)計算、大數(shù)據(jù)管理、大數(shù)據(jù)安全、大數(shù)據(jù)可視化、數(shù)據(jù)自治、數(shù)據(jù)爬蟲、知識圖譜、大數(shù)據(jù)挖掘、深度學習、區(qū)塊鏈等技術(shù),還特別介紹了數(shù)據(jù)產(chǎn)品生產(chǎn)技術(shù)。這些技術(shù)涵蓋了數(shù)據(jù)獲取與管理、數(shù)據(jù)分析與應用、數(shù)據(jù)安全與流通等數(shù)據(jù)開發(fā)利用的各個環(huán)節(jié),形成一個較為完整的大數(shù)據(jù)技術(shù)體系。...
本書全面介紹了數(shù)據(jù)開發(fā)利用技術(shù),包括大數(shù)據(jù)計算、大數(shù)據(jù)管理、大數(shù)據(jù)安全、大數(shù)據(jù)可視化、數(shù)據(jù)自治、數(shù)據(jù)爬蟲、知識圖譜、大數(shù)據(jù)挖掘、深度學習、區(qū)塊鏈等技術(shù),還特別介紹了數(shù)據(jù)產(chǎn)品生產(chǎn)技術(shù)。這些技術(shù)涵蓋了數(shù)據(jù)獲取與管理、數(shù)據(jù)分析與應用、數(shù)據(jù)安全與流通等數(shù)據(jù)開發(fā)利用的各個環(huán)節(jié),形成一個較為完整的大數(shù)據(jù)技術(shù)體系。
目 錄
第1章 緒論 1
1.1 大數(shù)據(jù)的技術(shù)挑戰(zhàn) 1
1.1.1 大數(shù)據(jù)的"大"1
1.1.2 數(shù)據(jù)"大"的技術(shù)挑戰(zhàn) 3
1.1.3 大數(shù)據(jù)決策的技術(shù)挑戰(zhàn) 5
1.1.4 數(shù)據(jù)安全的技術(shù)問題 7
1.2 大數(shù)據(jù)計算 8
1.2.1 大數(shù)據(jù)文件 9
1.2.2 大數(shù)據(jù)計算框架 10
1.2.3 大數(shù)據(jù)管理 11
1.3 數(shù)據(jù)開發(fā) 12
1.3.1 數(shù)據(jù)獲取 12
1.3.2 數(shù)據(jù)分析 13
1.3.3 數(shù)據(jù)可視化 14
1.4 數(shù)據(jù)產(chǎn)業(yè)支持 15
1.4.1 數(shù)據(jù)產(chǎn)業(yè)需要的技術(shù)支持 15
1.4.2 數(shù)據(jù)資產(chǎn)化 16
1.4.3 數(shù)據(jù)產(chǎn)品及其質(zhì)量 17
1.4.4 數(shù)據(jù)流通與安全 18
1.5 小結(jié) 19
參考文獻 19
第 2章 大數(shù)據(jù)計算 21
2.1 數(shù)據(jù)訪問21
2.1.1 安全模型 21
2.1.2 訪問控制策略 23
2.1.3 訪問控制與授權(quán) 24
2.1.4 訪問控制與審計 24
2.2 分布式文件系統(tǒng) 24
2.2.1 GoogleFS 25
2.2.2 HDFS 27
2.2.3 GlusterFS 28
2.2.4 CephFS 29
2.3 大數(shù)據(jù)計算框架 30
2.3.1 批處理 30
2.3.2 流數(shù)據(jù)計算 38
2.3.3 增量計算模型 41
2.3.4 新興計算框架 44
2.3.5 大數(shù)據(jù)計算框架的發(fā)展 46
2.4 多地計算異地計算模式 48
2.4.1 概念48
2.4.2 計算模型 49
2.4.3 特點 49 2.5 小結(jié) 49
參考文獻 49
第 3章 大數(shù)據(jù)管理 51
3.1 概述 51
3.2 分布式文件系統(tǒng) HDFS 52
3.2.1 前提和設計目標 53
3.2.2 數(shù)據(jù)塊 53
3.2.3 HDFS架構(gòu) 54
3.2.4 HDFS容錯機制 54
3.3 列式存儲格式 Parquet 55
3.3.1 行存儲與列存儲文件格式 55
3.3.2 Parquet 概述 56
3.3.3 數(shù)據(jù)模型 56
3.3.4 Parquet 文件的存儲格式 57
3.4 NOSOL 58
3.4.1 鍵值對數(shù)據(jù)庫 58
3.4.2 基于列族的數(shù)據(jù)庫 59
3.4.3 基于文檔的數(shù)據(jù)庫 59
3.4.4 基于圖的數(shù)據(jù)庫 60
3.5 鍵值數(shù)據(jù)庫 Redis 60
3.5.1 Redis簡介 60
3.5.2 Redis數(shù)據(jù)類型 61 3.5.3 Redis事務 63
3.5.4 Redis 持久化機制 63
3.6 HBase 63
3.6.1 HBase簡介 63
3.6.2 HBase訪問接口 64
3.6.3 HBase數(shù)據(jù)模型 64
3.6.4 HBase系統(tǒng)架構(gòu) 65
3.6.5 HBase存儲格式 66
3.7 Dynamo67
3.7.1 Dynamo系統(tǒng)設計假設和前提 67
3.7.2 Dynamo數(shù)據(jù)分布策略 68
3.7.3 CAP原理 68
3.7.4 Dynamo 的一致性實現(xiàn)技術(shù) 69
3.7.5 Dynamo系統(tǒng)訪問接口 69
3.8 Cassandra 69
3.9 MongoDB 70
3.9.1 MongoDB簡介 70
3.9.2 MongoDB數(shù)據(jù)模型70
3.9.3 MongoDB基礎(chǔ)操作71
3.9.4 MongoDB聚集操作 73
3.9.5 MongoDB復制機制75
3.9.6 MongoDB分片機制 76
3.10 Neo4j 76
3.10.1 Neo4j簡介 76
3.10.2 Neo4j基礎(chǔ)概念 77
3.10.3 NeO4j的Cypher查詢語言和模式 78