主頁 > 資料庫 > 從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生

從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生

2023-07-06 09:15:40 資料庫

摘要:隨著云計算的興起和滲透,云數倉成為了數倉技術演進的新階段,并且逐漸成為了眾多企業的共同選擇,

本文分享自華為云社區《從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生》,作者: 華為云頭條,

資料驅動著現代商業的發展

今天,無論在制造、零售、物流

還是在互聯網、金融等行業

資料都變得比以往任何時候更為重要

海量且多樣的資料浪潮對資料處理和分析提出了更高的要求,也使得資料倉庫走向了多元化的發展之路,傳統數倉、資料集市、實時數倉等相繼誕生,此外,隨著云計算的興起和滲透,云數倉成為了數倉技術演進的新階段,并且逐漸成為了眾多企業的共同選擇,

?與時俱進的“資料倉庫”

“資料倉庫”的概念并非近些年才出現,關于它的起源,眾說紛紜:

  • 有一種說法指出“資料倉庫”的概念最早可以追溯到上世紀60年代,當時的資料主要是手工處理的紙質檔案和統計報表;
  • 80年代中后期,隨著計算機技術和資料庫技術的飛速發展,資料倉庫開始逐漸成為企業級分析的重要工具;
  • 直到90年代 Bill Inmon 推出《建立資料倉庫》,正式定義了資料倉庫的概念——資料倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的資料集合;
  • 進入21世紀后,資料倉庫開始與大資料、資料挖掘、機器學習、云計算等技術的相結合,走上了集成發展之路,

隨著技術的不斷發展和產業實踐的深入,資料倉庫逐漸成為了企業資訊管理中不可或缺的部分,在實際應用中,資料倉庫已經被廣泛應用于各個領域,如客戶關系管理、商業智能、金融風險評估等,例如:

  • 在客戶關系管理方面,資料倉庫可以幫助企業更好地了解其客戶,從而提高客戶滿意度和忠誠度;
  • 在商業智能方面,資料倉庫可以幫助企業快速地分析大量的資料,從而為企業決策提供支持;
  • 在金融風險評估方面,資料倉庫可以幫助銀行和金融機構更好地評估風險和制定策略等等,

一些大型科技公司,基于自身業務訴求,也走上了資料倉庫的研發之路,

比如華為云早在 2011 年就開始做資料倉庫——GaussDB(DWS)的預研,在經受了海量自有業務資料的考驗后,于2015年推向市場,面向金融、政府傳統一體機等企業級核心數倉場景提供服務,2017年 GaussDB(DWS)上云,進一步提升了服務能力與服務范疇,

華為云數倉GaussDB(DWS)資深產品專家黃海燕介紹,GaussDB(DWS)是華為云資料生產線上的一個明星產品,是支持實時入庫、實時分析、批量運算、互動式查詢的一站式分析平臺,具備傳統數倉的超大規模、高性能、高并發等優勢,同時也具備云原生數倉的存算分離、彈性伸縮、Serverless、湖倉一體和數智融合等能力,

歷時12年,從內到外、從本地部署到云端服務,GaussDB(DWS)逐漸探索出了適應云時代多場景需求的云數倉之路,

圖片1.png

?GaussDB(DWS)的Serverless之路

2017 年,華為云開始加速拓展業務,推出了更多云計算服務,GaussDB(DWS)也全面上云,上云之后帶來的最直接的價值在于可以減少客戶企業的硬體投資和運維成本,提高整體的運營效益,但是由于企業的業務規模不同,負載差異非常大,黃海燕表示,小一點的可能只有幾十GB的資料集,大的則有數百TB甚至更多的資料集,業務規模的差異對數倉服務的彈性也提出了更高的要求,

  • 存算分離模式

針對這個問題,華為云GaussDB(DWS)在一開始就將數倉服務傳統的一體機模式轉換成了彈性計算服務ECS+彈性存盤服務EVS上的存算分離模式,實作了計算存盤獨立的擴容和擴展,能夠實作計算升降配、存盤彈性擴容,同時也支持在資料擴容之間的資料重分布,且不影響業務的中斷,

隨著業務場景的不斷深入, ECS+EVS彈性擴展的方式在面對一些資料量大但計算要求不高的場景,比如車聯網、互聯網日志、企業核心數倉的長周期歷史資料時,依然存在掣肘,

  • ECS+EVS+OBS冷熱資料管理

對此,GaussDB(DWS)團隊在ECS+EVS的基礎上又做了一層物件存盤OBS的冷資料管理,將車聯網、長周期歷史資料等放到OBS上,在不擴展計算的情況下,通過這種方式實作冷熱資料的管理,進而達到計算和存盤的平衡,最終集成為ECS+EVS+OBS冷熱資料管理的方式,GaussDB(DWS)基于本地盤進行性能加速,將 OBS 作為冷資料區,資料存盤異構擴展至OBS,利用分層存盤的方式,實作資料按需選擇存盤和計算引擎、冷熱資料遷移動態切換等,進而在不影響數倉體驗的前提下,達到成本最優,

  • 同時支持三種模式

“后來我們發現ECS+EVS+OBS冷熱資料管理的方式依然有覆寫不到的場景,比如說有一些場景它需要在跑批量的時候同時能夠跑并發的查詢,還希望一份資料實作多樣化的分析和存盤,因為有一部分熱資料在EVS上,很多時候沒有辦法高效地擴展分析,所以后面我們把所有的資料都放在OBS上,原來的 EVS作為資料的快取,OBS資料可以供多個集群、資料湖或者是AI去分析,再通過原先的EVS轉換成一個角色,做資料分析加速,可以理解成我們同時支持了三種模式,這三種模式不是相互替代的關系,而是各有其應用的場景和特點,”黃海燕提到,

基于上述三種Serverless模式, GaussDB(DWS)成功為1700+客戶提供了不同業務場景下的資料倉庫服務,黃海燕表示:“現在云上有很多彈性的場景,比如說互聯網,在我們歸納來說我們認為有兩大類的彈性場景”,

  • 長周期的彈性場景

主要有幾種型別:第一種是在固定的時間點上有一個潮汐波動,比如“雙十一”、“618”這類促銷節點;第二種是隨著企業規模的擴大,用戶量、資料量、計算量也會遞增;第三種是業務具備明顯的長周期時間特征,比如銀行在月末、季末、年末有結算的需求,計算量會比平時要大,游戲行業在周末時業務量會比平時更大,

  • 短周期的彈性場景

即短期內有多樣化的訴求,比如銀行00:00-8:00是批量的運行高峰,8:00-18:00在批量運行的同時會有一些對報表、經營資料的互動式查詢,18:00后是業務的低峰期,整體呈現一個潮汐波動,

Serverless的極致彈性擴縮容,很好地滿足了長、短周期彈性場景下的業務需求,但是存算分離的架構也可能會帶來網路開銷變大、資料處理效率變低、性能下降等問題,對此GaussDB(DWS)團隊也做出了較多的探索,

  • 首先,在ECS+EVS+OBS的模式下,資料統一存放在OBS上,EVS充當快取(磁盤快取+記憶體快取)的角色,由于磁盤快取相對而言成本較低,且大小可控,所以GaussDB(DWS)做了一個大比例的磁盤快取,用戶可以根據對性能或者成本的要求調整比例,理論上如果要追求極致性能,可以不斷調大磁盤快取,直到滿足業務需求,
  • 其次是計算下推,把查詢的邏輯直接下推到OBS,用戶如果要從OBS上查資料,直接從源端進行資料過濾,從而減少網路傳輸對記憶體的占用,帶來性能的提升,
  • 最后是I/O管控,GaussDB(DWS)采用多個I/O調度的代理和執行緒,直接從OBS上Road數,充分把OBS的帶寬利用起來,避免負載低時OBS用不上,負載高時互相爭搶的問題,進而實作性能的最大化,

除了在Serverless方向的探索外,GaussDB(DWS)在湖倉一體與數智融合上同樣取得了一些突破,

?“湖倉一體+數智融合”的未來暢想

對于“湖倉一體”的探索,華為云做的比較早,只不過當時主要是通過外表技術實作資料共享,比如對于Spark或Hive的表,在數倉里建一張外表和它對應,從而查詢Spark和Hive里的資料,但是這種方式隨著資料規模的增加,維護成本也會倍增,

外表技術本質上只能訪問資料,并不知道元資料長什么樣,如果元資料內容統一的話,對用戶來講就不需要建這個外表,

基于這個思路,GaussDB(DWS)引入了External schema的概念,通過創建一個External schema,然后以schema.table的方式去訪問Hive和Spark的元資料,和正常SQL一致,還可以和GaussDB(DWS)的內表做關聯分析,從而使得GaussDB(DWS)的優化器能力和執行引擎能力更強,

“未來華為云這邊,整個 EI 平臺會建立一個Lake Formation的統一存盤管理的組件服務,它會統一管起來所有的數倉和資料湖里面的各種組件的元資料,真正實作元資料意義上的共享,元資料的共享是比資料共享難度更高,或者說是真正有更大價值的東西,”華為云數倉GaussDB(DWS)技術專家齊天表示,

此外,為了解決多種資料庫插件或引擎的調度問題,GaussDB(DWS)還提供了一個叫做External Connection的能力,可以直接呼叫外部的計算引擎,用于計算共享資料或者是它們的自有資料,從而用一個或者一套引擎實作計算的統一,資料共享、元資料共享以及計算統一,是GaussDB(DWS)數倉一體的三大技術特征,并由此打破資料孤島效應,解決企業的IT資源分散、資料不通、應用孤立等問題,

在實作多平臺的資料拉通之后,面向未來,華為云數倉又提出了“數智融合”的概念,據了解,數智融合本質上是把資料和AI這兩條原本完全割裂的生產線融合到一起,從而實作1+1>2的效能,

當前GaussDB(DWS)對數智融合的探索主要在兩大場景:

  • 一是對于批量資料,GaussDB(DWS)可以將它們存盤在OBS上,通過OBS實現和AI之間的資料共享,從而在不影響數倉體驗的前提下,融入AI的自動化批量資料處理的能力;
  • 二是即席查詢場景,GaussDB(DWS)針對資料訪問的插件做了優化,進而讓AI生產線能夠更好、更快速地從中獲取資料等,

縱觀資料倉庫的演進之路,不難看出,從誕生的那一刻起,它就不斷在與新技術、新場景相融合,并獲得生機,從而持續釋放資料的價值,推動產業發展,

GaussDB(DWS)的全面Serverless化、湖倉一體和數智融合等特征,是華為云對于新時代資料倉庫技術演進方向的重要判斷,同樣也是資料倉庫技術順應時代、發展迭代的結果,隨著AI新時代的到來,數智融合之后的資料倉庫技術又將會迸發出怎樣的力量,值得期待,

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/556664.html

標籤:其他

上一篇:MySQL的match函式在sp中使用的BUG決議

下一篇:返回列表

標籤雲
其他(162112) Python(38266) JavaScript(25524) Java(18290) C(15238) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7288) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4611) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1989) .NET技术(1985) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • 從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生

    摘要:隨著云計算的興起和滲透,云數倉成為了數倉技術演進的新階段,并且逐漸成為了眾多企業的共同選擇。 本文分享自華為云社區《從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生》,作者: 華為云頭條。 資料驅動著現代商業的發展 今天,無論在制造、零售、物流 還是在互聯網、金融等行業 資料都變得 ......

    uj5u.com 2023-07-06 09:15:40 more
  • MySQL的match函式在sp中使用的BUG決議

    ## 一、問題發現 在一次開發中在sp中使用`MySQL PREPARE`以后,使用`match AGAINST`陳述句作為`prepare stmt`的引數后,發現執行第二遍call會導致資料庫crash,于是開始動手調查問題發生的原因。 > 注:本次使用的 MySQL 資料庫版本為最新的debug ......

    uj5u.com 2023-07-06 09:15:31 more
  • ElasticSearch - 批量更新bulk死鎖問題排查

    由于商品變更MQ訊息量巨大,為了提升更新ES的性能,防止出現MQ訊息積壓問題,所以本系統使用了BulkProcessor進行批量異步更新。 ......

    uj5u.com 2023-07-06 09:15:24 more
  • 分布式資料庫 Join 查詢設計與實作淺析

    相對于單例資料庫的查詢操作,分布式資料查詢會有很多技術難題。本文記錄 Mysql 分庫分表 和 Elasticsearch Join 查詢的實作思路,了解分布式場景資料處理的設計方案。

    文章從常用的關系型資料庫 MySQL 的分庫分表Join 分析,再到非關系型 ElasticSearch 來分析... ......

    uj5u.com 2023-07-06 09:15:17 more
  • 05、etcd 讀請求執行流程

    > 本篇內容主要來源于自己學習的視頻,如有侵權,請聯系洗掉,謝謝。 ### 1、etcd讀請求概覽 etcd是典型的`讀多寫少`存盤,在我們實際業務場景中,讀一般占據2/3以上的請求。一個讀 請求從client通過`Round-robin(輪詢)`負載均衡演算法,選擇一個etcd server節點,發 ......

    uj5u.com 2023-07-06 09:14:44 more
  • es筆記三之term,match,match_phrase 等查詢方法介紹

    > 本文首發于公眾號:Hunter后端 > 原文鏈接:[es筆記三之term,match,match_phrase 等查詢方法介紹](https://mp.weixin.qq.com/s/3tzD8dEr592WNJFH_1bKRw) 首先介紹一下在 es 里有兩種存盤字串的欄位型別,一個是 ke ......

    uj5u.com 2023-07-06 09:14:33 more
  • 向量資料庫:新一代的資料處理工具

    向量資料庫是一種特殊型別的資料庫,它可以存盤和處理向量資料。向量資料通常用于表示多維度的資料點,例如在機器學習和人工智能中使用的資料。在向量資料庫中,資料被表示為向量,這些向量可以在多維空間中進行比較和搜索。 ......

    uj5u.com 2023-07-06 09:14:23 more
  • 從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生

    摘要:隨著云計算的興起和滲透,云數倉成為了數倉技術演進的新階段,并且逐漸成為了眾多企業的共同選擇。 本文分享自華為云社區《從GaussDB(DWS)的技術演進,看資料倉庫的積淀與新生》,作者: 華為云頭條。 資料驅動著現代商業的發展 今天,無論在制造、零售、物流 還是在互聯網、金融等行業 資料都變得 ......

    uj5u.com 2023-07-06 09:14:13 more
  • ElasticSearch - 批量更新bulk死鎖問題排查

    由于商品變更MQ訊息量巨大,為了提升更新ES的性能,防止出現MQ訊息積壓問題,所以本系統使用了BulkProcessor進行批量異步更新。 ......

    uj5u.com 2023-07-06 09:14:09 more
  • Mysql進階篇(一)之存盤引擎

    # 一. MySQL體系結構 ![](https://tcs-devops.aliyuncs.com/storage/112v957e3962f4a8a6d4d8eb1a194d885fa0?Signature=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJBcHB ......

    uj5u.com 2023-07-06 09:13:13 more