大資料導論
1.資料
資料概念:一切能被記錄和查詢的事物
資料價值: 對資料的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律
2.大資料概述
大資料是什么?
狹義上:對海量資料進行處理的軟體技術體系
廣義上:數字化、資訊化時代的基礎支撐,以資料為生活賦能
大資料解決了什么問題?
1.海量資料的存盤
2.海量資料的計算
3.海量資料的傳輸
大資料的核心作業是什么?
存盤:利用各類大資料技術堆疊,安全保存海量待處理資料
計算:利用各類大資料技術堆疊,完成海量資料的價值挖掘
傳輸:利用各類大資料技術堆疊,協助各個環節的資料傳輸
3.大資料特征
特征可以簡單概括為"5V"(大、多、值、快、信)
大:資料題量大,一般計量單位是P(1000 T),E(100萬 T)
多:種類來源多樣化,包括結構化,半結構化,非結構化資料,如網路日志、音頻、視頻、圖片、地理位置資訊等,
值:資料價值高但是低價值密度
快:速度快,資料增長速度快,處理速度快,時效性要求高,
信:資料準確度高
總的來說,大資料就是從海量的高增長、多類別、低資訊密度的資料中挖掘出高質量的結果,為企業決策賦能
4.大資料技術堆疊
Apache軟體基金會(Apache Software Foundation,簡稱 ASF,是專門為運作一個開源軟體專案的 Apache 的團體提供支持的非盈利性組織,這個開源軟體的專案就是 Apache 專案,
存盤
Apache Hadoop-HDFS :HDFS是Apache Hadoop Core專案的一部分,(Hadoop Distributed File System) Hadoop分布式檔案存盤系統
Apache Hbase: HBase是Apache的Hadoop專案的子專案
Apache Kudu: 是由Cloudera開源的存盤引擎,貢獻給Apache基金組織
計算
Apache Hadoop-MapReduce: MapReduce組件是最早一代的大資料分布式計算引擎對大資料的發展做出了卓越的貢獻
Apache Hive: Hive是一款以SQL為要開發語言的分布式計算框架,HiveSQL其底層翻譯成了Hadoop的MapReduce程式去執行
Apache Spark: Spark是目前全球范圍內最火熱的分布式記憶體計算引擎,是大資料體系中的明星計算產品
Apache Flink: Flink同樣也是一款明星級的大資料分布式記憶體計算引擎,特別是在實時計算(流計算)領域占據了大多數的國內市場,
傳輸
Apache Sqoop: Sqoop是一款ETL工具,可以協助大資料體系和關系型資料庫之間進行資料傳輸,
Apache Flume: Flume是一款流式資料采集工具,可以從非常多的資料源中完成資料采集傳輸的任務,
Apache Kafka: Kafka是一款分布式的訊息系統,可以完成海量規模的資料傳輸作業,Apache Kafka在大資料領域也是明星產品
Apache Pulsar: Pulsar同樣是一款分布式的訊息系統,
5.Hadoop
Hadoop是開源的技術框架,提供分布式存盤、計算、資源調度的解決方案
Hadoop:是包含HDFS,MapReduce,YARN三大組件的技術堆疊
Hadoop的開源版本:Apache開源社區版(原生版本)
Hadoop的商業版本:Cloudera等商業公司自行進行二次封裝的商業版
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/552446.html
標籤:大數據
下一篇:返回列表