隨著大數據與云原生的快速發(fā)展融匯交互,各技術領域又將來臨新一波迅雷之勢的挑戰(zhàn)和創(chuàng)變。利用云原生技術的簡便快捷、動態(tài)調度、按需伸縮等優(yōu)勢,如何加速大數據基礎軟件和系統(tǒng)的迭代更新頻率、確保整體環(huán)境的最終一致性,如何為數據庫提供極致的性能、彈性和無限擴展能力,以及由此帶來的運維模式轉型該如何應對,以上種種,都是我們當下需要率先突破的課題。
當下來看,不僅僅是技術上面的難題,很多企業(yè)依舊是使用的老一套大數據處理方案,但數據量日益增大,需求增多。傳統(tǒng)的數據中心無論是在性能、效率,還是在投資收益、安全性,已經遠遠不能滿足新興應用的需求,數據中心業(yè)務急需新型大數據處理中心來支撐。除了傳統(tǒng)的高可靠、高冗余、綠色節(jié)能之外,新型的大數據中心還需應具備虛擬化、模塊化、彈性擴展、自動化等一系列特征,才能滿足具備大數據特征的應用需求。這些史無前例的需求,讓存儲系統(tǒng)的架構和功能都發(fā)生了前所未有的變化。
對于企業(yè)來說,大數據方面的挑戰(zhàn)包括:
·業(yè)務部門無清晰的大數據需求
·企業(yè)內部數據孤島嚴重
·數據可用性低、質量差
·數據相關管理技術和架構問題
·數據安全問題
·大數據人才缺乏
·數據開放和隱私的權衡
要更快速的釋放數據價值,一套完善的方案和系統(tǒng)是關鍵。而這一領域的佼佼者便是華為云一站式大數據解決方案,頗受業(yè)界認可。本文就從傳統(tǒng)大數據解決方案和大數據的特點出發(fā),來剖析為什么要選擇華為云的大數據解決方案。
一、海量數據處理方案
1.1 大數據存儲
1.1.1 傳統(tǒng)數據存儲
通常業(yè)務系統(tǒng)產生的大量日志,傳統(tǒng)的處理方式是采用集中存儲。集中存儲就是指有一臺大型主機或多臺主機組成中心節(jié)點,數據集中存儲于這個中心節(jié)點上,并且整個系統(tǒng)的所有業(yè)務單元都集中部署在這個中心節(jié)點上, 數據計算幾乎完全 依賴于一臺中、大型的中心計算機的處理能力。系統(tǒng)所有的功能均由其集中處理。在集中式系統(tǒng)中,每個終端或客戶端僅僅負責數據的錄入和輸出,而數據的存儲與控制處理完全交給主機來完成。集中式存儲最大的特點就是部署結構簡單。放在現在整個環(huán)境中,需要面臨以下考驗:
·系統(tǒng)安全性:需要對抗DDoS攻擊,傳統(tǒng)自建數據庫需要自行實現,且實現成本較高,同時也需自行修復數據庫安全漏洞。
·硬件成本:為了能部署數據庫,開發(fā)者需要購買費用高昂的數據庫服務器。一次性的硬件成本很高。而且考慮到硬件損耗,后期還會有維修和更換硬件的成本。
·運維成本:需要花費大量的人力物力來維護硬件、維護操作系統(tǒng)、維護數據庫軟件。
·可擴展性:傳統(tǒng)自建數據庫采用物理硬盤作為存儲空間,受單盤容量的限制,并不支持彈性升級,要增減節(jié)點,也比較難實現,如果某個數據庫超過了這個存儲的限制,需要運維和開發(fā)的人員一起進行數據歸檔,來降低數據庫容量。
·可靠性:單機實例,沒有數據災備。需要額外成本建立異地的數據災備。不管是主從架構、還是負載均衡還是自動容災方面,傳統(tǒng)自建數據庫都需要自行實現。
傳統(tǒng)數據庫或數倉產品面臨數據存不下、查不出、擴容難、成本高的痛點。因此,如何對整個傳統(tǒng)數據庫升級躍遷,是企業(yè)面臨的關鍵問題之一。
一方面是傳統(tǒng)數據庫不能滿足互聯(lián)網企業(yè)新需求;ヂ(lián)網企業(yè)因業(yè)務快速擴展,需實時處理海量數據,并發(fā)訪問量非常大。傳統(tǒng)數據庫基于專用服務器和高端存儲構成共享存儲環(huán)境,設備造價昂貴,且性能和擴展性極其有限,無法滿足互聯(lián)網行業(yè)對數據庫高并發(fā)、實時在線需求。
另一方面是傳統(tǒng)數據庫不能適應云計算技術新需求。云計算公司依托技術積累,發(fā)起由IOE架構向基于廉價PC服務器技術的變革,降低IT服務支出,倡導以軟件為中心的架構演變,降低數據庫維護升級的風險。傳統(tǒng)數據庫環(huán)境是集中在一個地點的高穩(wěn)定、高可靠、高可用的高端企業(yè)級設備,制約云計算企業(yè)未來業(yè)務發(fā)展,增加長期運營成本。
傳統(tǒng)數據存儲面臨著以下四個問題:
·無法應對每秒上萬次的讀寫請求,硬盤IO此時也將變?yōu)樾阅芷款i。
·表中存儲記錄數量有限,橫向可擴展能力有限,縱向數據可承受能力也是有限的,面對海量數據,勢必涉及到分庫分表,難以維護。大數據查詢SQL效率極低,數據量到達一定程度時,查詢時間會呈指數級別增長。
·難以橫向擴展,無法簡單地通過增加硬件、服務節(jié)點來提高系統(tǒng)性能。
·對于需要24小時不間斷提供服務的網站來說,數據庫升級、擴展將是一件十分麻煩的事,往往需要停機維護、數據遷移。為了避免服務間斷,如果網站使用服務器集群,則根據集群策略,需要相應的考慮主從一致性、集群擴展性等一系列問題。
那么結合現有的云原生技術和大數據技術,數據倉庫又該是何種形式呢?
1.1.2 云大數據倉庫
以華為云數據倉庫 GaussDB(DWS)新一代云數倉為例,GaussDB(DWS)作為新一代全場景數據倉庫,具備極致性能、高擴展、極簡易用、一站式分析等特性,滿足大數據時代企業(yè)構建新型數倉的需求。融合分析能力是云原生數據倉庫GaussDB(DWS)核心亮點之一。GaussDB(DWS)采用一套SQL引擎,支持Oracle、Mysql、HDFS等多源數據融合分析,并通過算子下推、加速集群等技術對分析性能進行了大幅優(yōu)化,在數據免搬遷的前提下,實現了跨源數據免搬遷、高效分析。
能夠在運行時進行按需擴展的能力是任何企業(yè)成長的先決條件。因為這種能力讓企業(yè)可以專注于追求商業(yè)目標,而不用擔心存儲空間大小的限制。傳統(tǒng)數據庫將所有文件和資源都存儲在同一主機中,而云原生數據庫GaussDB則不同,它不僅允許你以不同的方式存儲,而且不受存儲空間問題的影響。
比如我們從MySQL數據庫數據遷移至GaussDB:
1、導出mysql數據
1、下載數據并上傳至GaussDB服務器
2、導入GaussDB
可見遷移十分便捷。GaussDB 提供配套的遷移工具,支持使用dump和load將數據庫中的數據導出成標準化通用文件,可使用GaussDB的 load導入Oracle、MySQL、SQLserver等數據庫導出的文件,同時也可以使用dump導出GaussDB的數據,然后導入到其他數據庫或者其他GaussDB數據庫。可支持Teradata、Oracle/Exadata、Greenplum等數據分析系統(tǒng)的平滑遷移,而且支持SQL 2003標準,兼容Oracle/Teradata的部分語法和數據結構,支持全局事務、存儲過程、數據強一致性保證。且GaussDB庫倉一體,邏輯集群,支持一套集群容納數據集市、數據倉庫。
GaussDB(DWS)云原生數據倉庫支持冷熱數據多溫存儲,熱數據存儲于數倉內部,以獲得良好的查詢分析性能,冷數據可分級存儲到更低成本的OBS中。不僅降低存儲成本,并且在OBS內,通過合法鑒權,數據能夠共享開放,供其他引擎處理分析。GaussDB(DWS)當前已經支持表內不同分區(qū)間的冷熱數據存儲,未來還將支持更細粒度、更加智能的冷熱數據管理。
企業(yè)積累的海量數據及各種數據資產,體量龐大,需高性能大數據平臺支撐進行全量數據分析和挖掘。企業(yè)可以依托DWS+BI工具打造全局的、直觀的、關聯(lián)性的、可視化的運營數字化分析平臺 ,以數據分析來驅動業(yè)務價值提升及管理提升。
以國內某知名保險客戶的商業(yè)數據庫遷移為例。首先是要求高性能,客戶上線業(yè)務為保險核心業(yè)務,這塊業(yè)務需要數據庫具備高并發(fā)、大表查詢的能力,尤其是對接互聯(lián)網和渠道的業(yè)務,對數據庫性能要求很高。在保單的批量下單場景方面,GaussDB(for MySQL)憑借其優(yōu)秀的性能完美支撐業(yè)務核心交易場景。
而且GaussDB跨AZ部署高可用,數據安全可靠。這個特性無論是在國內,還是與海外友商相比都是領先的,它能做到跨3AZ部署,任何一個節(jié)點故障都不會對業(yè)務帶來致命影響。故障切換速度做到10秒以內,做到數據零丟失,采用白名單、VPC網絡、數據多副本存儲等全方位的手段,對數據庫數據訪問、存儲、管理等各個環(huán)節(jié)提供安全保障。且GaussDB能夠快速備份恢復,采用快照的方式,相比傳統(tǒng)MySQL物理備份,整個恢復時間加快了數倍;诘讓哟鎯ο到y(tǒng)的多時間點特性,不需增量日志回放,可直接實現按時間點回滾。備份及恢復邏輯下沉到各存儲節(jié)點,本地訪問數據并直接與第三方存儲系統(tǒng)交互,實現高并發(fā)、高性能。
針對實時檢索、復雜BI SQL定制并行查詢功能,開啟后同樣多表關聯(lián)查詢速度提升10+ 倍。
1.2 大數據BI快速展示
既然談到了大數據BI這條業(yè)務線那就把他講到底。
1.2.1大數據BI產業(yè)鏈結構分析
大數據BI產業(yè)鏈結構總體上由數據源、數據獲取、數據處理、數據分析以及數據展現五個方面構成。
第一、從數據來源角度
大數據應用的數據來源,不僅僅包括非結構化的數據,還有各種系統(tǒng)數據、數據庫數據。其中非結構化數據主要是集中在互聯(lián)網以及一些社交網站上的數據和一些機器設備的數據,這些都構成了大數據應用的數據來源。對于大數據的分析工具來說,現階段對非結構化的數據分析的比較多。
BI系統(tǒng)則是在數據集成方面的技術越來越成熟。對于數據的提取和各種數據挖掘來說,數據集成平臺會幫助企業(yè)實現數據的流通和交互使用,在企業(yè)內部實施BI應用就是為了可以更好地對數據進行分享和使用。
其中數據源由企業(yè)內部數據和外部數據構成。企業(yè)的內部數據通常與具體業(yè)務緊密相關,且多數來自我們可以掌控的軟件系統(tǒng),如CRM、ERP或者HR系統(tǒng)。ETL負責將數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫中,成為聯(lián)機分析處理、數據挖掘的基礎。最后通過數據展現工具對數據進行可視化分析,滿足各種應用需求。多數企業(yè)對大數據BI平臺數據權限管控、探索式自主分析以及快速搭建業(yè)務數據模型等功能有著強烈需求,這幾種功能被選擇的比例高達90%以上;
第二、從發(fā)展方向角度
BI的發(fā)展要從傳統(tǒng)的商務智能模式開始轉換。對于企業(yè)來說,BI不僅僅是一個IT項目,更是一種管理和思維的方式,從技術的部署到業(yè)務的流程規(guī)劃,BI正在迎來新的發(fā)展。對于大數據來說,現階段更多的大數據關注在非結構化數據,不同的數據分析工具的出現和行業(yè)內的應用范圍不斷的加大。對于大數據應用來說,怎么與應用的行業(yè)進行深層次的結合才是最重要的。
第三、從工具的角度
傳統(tǒng)BI使用的是ETL、數據倉庫、OLAP、可視化報表技術,屬于應用和展示層技術,目前都處于淘汰的邊緣。因為它們解決不了海量數據(包括結構化與非結構化)的處理問題。而大數據應用的是一個完整的技術體系,包括用Hadoop、流處理等技術解決海量的結構化、非結構化數據的ETL問題,用Hadoop、MPP等技術解決海量數據的計算問題,用redis、HBASE等方式解決高效讀的問題,用Impala等技術解決在線分析等問題。
1.2.2 華為云一站式大數據BI方案
基于華為云數據倉庫服務GaussDB(DWS)及基礎服務,華為云一站式大數據BI可以5分鐘完成自動化報表制作,可輕松打通多個業(yè)務系統(tǒng)數據,整合多源數據,構建企業(yè)級可視化分析決策平臺。通過類Excel的設計器一鍵連接數據源,拖拽字段綁定單元格,報表即可完成制作。學習成本低,產品上手快,操作簡便、快速,總結起來就是“易學易用易集成”。
方案優(yōu)勢:
1、一站式
一站式大數據分析平臺,包括數據采集、清洗、整合、存儲、計算、建模、訓練、展現、協(xié)作等,一個平臺上完成全流程數據分析任務。
2、高性能
利用列存儲和內存計算,實現海量數據秒級響應。AI深度分析集成多種算法,挖掘潛在價值關系、模式和趨勢,構建數據模型,做出業(yè)務預測與洞察。
3、極致易用
上線周期以周為單位,平臺支持全部云端OS,支持公有云、私有云和混合云架構。操作簡單,業(yè)務人員也能輕松、快速地制作并分析數據報告。
4、移動跨屏
無縫支持各種電腦和手機終端系統(tǒng),并在這些終端設備上保持一致、易用的用戶體驗,隨時隨地通過移動設備進行數據分析。
數字化轉型的最終目的并非是獲得數據,而是挖掘數據的價值,實現數據驅動業(yè)務增長。華為云大數據BI解決方案定位于“面向業(yè)務人員的可視化分析”工具,讓零基礎的業(yè)務人員也能自主完成數據進行分析、挖掘與洞察,讓數據真正走進業(yè)務,推動業(yè)務增長,實現降本增效。
華為云數據可視化DLV服務一站式適配云上云下多種數據源,提供豐富多樣的2D、3D可視化組件,采用拖拽式自由布局,旨在幫助快速定制和應用屬于自己的數據大屏。目前華為云還提供數據可視化DLV的基礎版免費試用機會,可在華為云官網申請體驗。
華為云數據可視化DLV具備如下優(yōu)勢:
1.豐富多樣的可視化組件
提供豐富的可視化組件,包括常用的數據圖表、圖形、控件等
2.專業(yè)級地理信息可視化
支持繪制地理軌跡、地理飛線、熱力分布、地域區(qū)塊、3D地球等效果,支持地理數據多層疊加
3.可視化編輯器
拖拽即可完成組件自由配置與布局、所見即所得,無需編程就能輕松搭建可視化大屏,并且依據投放設備分辨率,自由定制大屏尺寸
4.多種數據源支持
無縫集成華為云數據倉庫服務、數據湖探索服務、關系型數據庫、對象存儲服務等,支持本地CSV、在線API及企業(yè)內部私有云數據
通過以上案例,我們不難發(fā)現,華為云大數據BI通過多維度的數據統(tǒng)計方式,能更加深入地了解到消費者的消費行為模式及趨勢。作為一種新興科技應用場景,大數據BI正在成為未來智慧商業(yè)發(fā)展的重要方向之一,也將給傳統(tǒng)商業(yè)帶來革命性變革。
隨著新經濟時代的到來,越來越多的人開始意識到“數字經濟”所具有的巨大潛力,而大數據正是其中最關鍵的一環(huán),華為云以資源多與技術強的優(yōu)勢,能夠更好地為客戶提供差異化定制化服務,提升企業(yè)市場競爭力,獲取更大市場份額。
剛好華為云的雙11活動還在繼續(xù),截止到11月30日,訪問華為云官網活動頁面就可領取10000元的滿減紅包:
還有數據庫、服務器、云安全等產品也有非常給力的優(yōu)惠,快點入手操作起來吧!