主頁 > 資料庫 > 大資料導論

大資料導論

2023-05-15 07:56:01 資料庫

大資料導論

1.資料

資料概念:一切能被記錄和查詢的事物
資料價值: 對資料的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律  

2.大資料概述

大資料是什么?
狹義上:對海量資料進行處理的軟體技術體系
廣義上:數字化、資訊化時代的基礎支撐,以資料為生活賦能

大資料解決了什么問題?
1.海量資料的存盤
2.海量資料的計算
3.海量資料的傳輸

大資料的核心作業是什么?
存盤:利用各類大資料技術堆疊,安全保存海量待處理資料
計算:利用各類大資料技術堆疊,完成海量資料的價值挖掘
傳輸:利用各類大資料技術堆疊,協助各個環節的資料傳輸

3.大資料特征

特征可以簡單概括為"5V"(大、多、值、快、信)
大:資料題量大,一般計量單位是P(1000 T),E(100萬 T)
多:種類來源多樣化,包括結構化,半結構化,非結構化資料,如網路日志、音頻、視頻、圖片、地理位置資訊等,
值:資料價值高但是低價值密度
快:速度快,資料增長速度快,處理速度快,時效性要求高,
信:資料準確度高
總的來說,大資料就是從海量的高增長、多類別、低資訊密度的資料中挖掘出高質量的結果,為企業決策賦能

4.大資料技術堆疊

Apache軟體基金會(Apache Software Foundation,簡稱 ASF,是專門為運作一個開源軟體專案的 Apache 的團體提供支持的非盈利性組織,這個開源軟體的專案就是 Apache 專案,

存盤

Apache Hadoop-HDFS :HDFS是Apache Hadoop Core專案的一部分,(Hadoop Distributed File System) Hadoop分布式檔案存盤系統

Apache Hbase: HBase是Apache的Hadoop專案的子專案

Apache Kudu: 是由Cloudera開源的存盤引擎,貢獻給Apache基金組織

計算

Apache Hadoop-MapReduce: MapReduce組件是最早一代的大資料分布式計算引擎對大資料的發展做出了卓越的貢獻

Apache Hive: Hive是一款以SQL為要開發語言的分布式計算框架,HiveSQL其底層翻譯成了Hadoop的MapReduce程式去執行

Apache Spark: Spark是目前全球范圍內最火熱的分布式記憶體計算引擎,是大資料體系中的明星計算產品

Apache Flink: Flink同樣也是一款明星級的大資料分布式記憶體計算引擎,特別是在實時計算(流計算)領域占據了大多數的國內市場,

傳輸

Apache Sqoop: Sqoop是一款ETL工具,可以協助大資料體系和關系型資料庫之間進行資料傳輸,

Apache Flume: Flume是一款流式資料采集工具,可以從非常多的資料源中完成資料采集傳輸的任務,

Apache Kafka: Kafka是一款分布式的訊息系統,可以完成海量規模的資料傳輸作業,Apache Kafka在大資料領域也是明星產品

Apache Pulsar: Pulsar同樣是一款分布式的訊息系統,

5.Hadoop

Hadoop是開源的技術框架,提供分布式存盤、計算、資源調度的解決方案

Hadoop:是包含HDFS,MapReduce,YARN三大組件的技術堆疊
Hadoop的開源版本:Apache開源社區版(原生版本)
Hadoop的商業版本:Cloudera等商業公司自行進行二次封裝的商業版

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/552451.html

標籤:其他

上一篇:資料操作(基礎)

下一篇:返回列表

標籤雲
其他(159039) Python(38129) JavaScript(25421) Java(18034) C(15226) 區塊鏈(8265) C#(7972) AI(7469) 爪哇(7425) MySQL(7186) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4572) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1972) 功能(1967) Web開發(1951) HtmlCss(1936) python-3.x(1918) C++(1915) 弹簧靴(1913) xml(1889) PostgreSQL(1876) .NETCore(1860) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • 大資料導論

    大資料導論 1.資料 資料概念:一切能被記錄和查詢的事物 資料價值: 對資料的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律 2.大資料概述 大資料是什么? 狹義上:對海量資料進行處理的軟體技術體系 廣義上:數字化、資訊化時代的基礎支撐,以資料為生活賦能 大資料解決了什么問題? 1. ......

    uj5u.com 2023-05-15 07:56:01 more
  • 資料操作(基礎)

    mysql之資料操作 第一章 添加資料 通常向表中添加資料應該包含表中的所有欄位,即為表中所有欄位添加資料。但也可不包含所有欄位來添加資料 1.1、所有欄位 按照所有欄位來添加資料,有兩種方式: 語法1: insert into 表名(所有欄位) values(欄位對應的值); 語法2: inser ......

    uj5u.com 2023-05-15 07:55:47 more
  • Redis資料結構一之物件的介紹及各版本對應實作

    本文首發于公眾號:Hunter后端 原文鏈接:Redis資料結構一之物件的介紹及各版本對應實作 本篇筆記開始介紹 Redis 資料結構的底層實作。 當我們被問到 Redis 中有什么資料結構,或者說資料型別,我們可能會說有字串、串列、哈希、集合、有序集合。 其實這幾種資料型別在 Redis 中都由 ......

    uj5u.com 2023-05-15 07:54:54 more
  • 讀SQL進階教程筆記16_SQL優化讓SQL飛起來

    1. 查詢速度慢并不只是因為SQL陳述句本身,還可能是因為記憶體分配不佳、檔案結構不合理等其他原因 1.1. 都是為了減少對硬碟的訪問 2. 不同代碼能夠得出相同結果 2.1. 從理論上來說,得到相同結果的不同代碼應該有相同的性能 2.2. 遺憾的是,查詢優化器生成的執行計劃很大程度上要受到代碼外部結構 ......

    uj5u.com 2023-05-15 07:54:13 more
  • 資料操作(基礎)

    mysql之資料操作 第一章 添加資料 通常向表中添加資料應該包含表中的所有欄位,即為表中所有欄位添加資料。但也可不包含所有欄位來添加資料 1.1、所有欄位 按照所有欄位來添加資料,有兩種方式: 語法1: insert into 表名(所有欄位) values(欄位對應的值); 語法2: inser ......

    uj5u.com 2023-05-15 07:53:58 more
  • 大資料導論

    大資料導論 1.資料 資料概念:一切能被記錄和查詢的事物 資料價值: 對資料的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律 2.大資料概述 大資料是什么? 狹義上:對海量資料進行處理的軟體技術體系 廣義上:數字化、資訊化時代的基礎支撐,以資料為生活賦能 大資料解決了什么問題? 1. ......

    uj5u.com 2023-05-15 07:53:37 more
  • Redis基礎命令匯總,看這篇就夠了

    本文首發于公眾號:Hunter后端 原文鏈:Redis基礎命令匯總,看這篇就夠了 本篇筆記將匯總 Redis 基礎命令,包括幾個常用的通用命令,和各個型別的資料的操作,包括字串、哈希、串列、集合、有序集合等在內的基本操作。 以下是本篇筆記目錄: 通用命令 字串命令 哈希命令 串列命令 集合命令 ......

    uj5u.com 2023-05-14 08:58:48 more
  • MySQL開窗函式

    MySQL開窗函式 知識點 三種開窗函式:row_number(),rank(),dense_rank() 這三種函式都是用于回傳結果集的分組內每行的排名 區別: row_number():特點是唯一且連續,如果四個人是按成績排名,那么是1234這樣排的,即使有重分的人 rank(): 特點是并列不 ......

    uj5u.com 2023-05-14 08:58:42 more
  • MySQL-簡單總結

    部分概念: 1、在資料庫中產生資料不一致的根本原因是冗余 2、一個事務對某資料加S鎖后,其它的事務不能對該資料加任何型別的鎖(錯誤):所謂S鎖,是事務T對資料A加上S鎖時,其他事務只能再對資料A加S鎖,而不能加X鎖,直到T釋放A上的S鎖 3、一個資料庫只有一個模式和一個內模式 4、使某個事務永遠處于 ......

    uj5u.com 2023-05-14 08:58:38 more
  • 索引初識

    索引(基礎) 一、索引介紹 1.1、前言 在資料庫中,執行如下陳述句時: select * from emp where id=1000; mysql 是從第一條記錄開始遍歷,直至找到 id = 1000 的資料,然而這樣查詢的效率低,所以 mysql 允許通過建立索引來加快資料表的查詢和排序。 1. ......

    uj5u.com 2023-05-14 08:53:18 more