首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 大數(shù)據(jù) >> 正文

分貝通SAAS企業(yè)大數(shù)據(jù)體系建設(shè)經(jīng)驗分享

2022年8月9日 15:24  CCTIME飛象網(wǎng)  

簡介:本文將介紹分貝通在大數(shù)據(jù)領(lǐng)域的一些建設(shè)經(jīng)驗。分貝通在ToB領(lǐng)域是一個年輕的公司,成立六年多,大數(shù)據(jù)體系剛剛建立一年多,整個團隊不到二十人,整體的大數(shù)據(jù)建設(shè)處于初級和摸索的階段。本次將總結(jié)在大數(shù)據(jù)業(yè)務(wù)上的實踐和思考,希望給大家?guī)韱l(fā)。

分享嘉賓:吳榮彬 分貝通 大數(shù)據(jù)部負責人

導讀:本文將介紹分貝通在大數(shù)據(jù)領(lǐng)域的一些建設(shè)經(jīng)驗。分貝通在ToB領(lǐng)域是一個年輕的公司,成立六年多,大數(shù)據(jù)體系剛剛建立一年多,整個團隊不到二十人,整體的大數(shù)據(jù)建設(shè)處于初級和摸索的階段。本次將總結(jié)在大數(shù)據(jù)業(yè)務(wù)上的實踐和思考,希望給大家?guī)韱l(fā)。

主要內(nèi)容包括以下幾方面:

● 公司介紹

● 大數(shù)據(jù)建設(shè)背景

● 大數(shù)據(jù)建設(shè)方案

● 大數(shù)據(jù)應用場景

公司介紹

先簡單介紹一下分貝通。

我們平常公司中可能會遇到這種場景,比如出差時通過公司OA或郵件進行審批,然后去訂機票、火車票、酒店等,到了目的地之后很多費用還要自己墊付,回來再通過發(fā)票報銷,發(fā)票數(shù)量多且金額大,時間耗費多;同時對公司而言,因為要對接很多外部平臺,對企業(yè)和員工而言都是非常麻煩的。

分貝通致力于解決企業(yè)這方面的痛點,除了差旅這部分大的支出,我們也希望在所有的支出管理場景提供整體解決方案,實現(xiàn)企業(yè)在預算、審批、交易、報銷的全流程閉環(huán)。對員工而言,所有支出都在一個平臺,可以不用墊資和發(fā)票,使用非常便捷。對企業(yè)而言,可以做到事前預算管理,事中費用控制,事后自動報銷,極大的減輕了財務(wù)和行政的工作量。

前提是分貝通需要提前去對接不同的供應商,比如酒店供應商、用車供應商等。在某些場景,分貝通還在建立自己的供應商體系,包括自營的酒店、自營的商城。經(jīng)過六年多的發(fā)展,該模式得到了投資人和市場的認可,現(xiàn)在服務(wù)于數(shù)千家客戶,業(yè)務(wù)增長迅速,融資的規(guī)模也比較可觀,目前在企業(yè)服務(wù)領(lǐng)域算是獨角獸的存在。

大數(shù)據(jù)建設(shè)背景

我們公司的大數(shù)據(jù)部門去年才成立,之前整個公司數(shù)據(jù)底層建設(shè)比較匱乏,所有數(shù)據(jù)都是通過業(yè)務(wù)研發(fā)團隊去支撐,業(yè)務(wù)研發(fā)除了很多自己的產(chǎn)品功能迭代以外,還要排期去做數(shù)據(jù)支持。整體體驗較差,一個業(yè)務(wù)上線需要一到兩個月。這可能是所有ToB公司必經(jīng)的一個階段,ToB公司一開始的數(shù)據(jù)量可能不是特別大,不像ToC公司一開始就有自己的大數(shù)據(jù)團隊,隨著ToB公司的發(fā)展,數(shù)據(jù)量變大后,對大數(shù)據(jù)團隊建設(shè)的需求是非常迫切的。

這是我們?nèi)ツ陿I(yè)務(wù)部門的需求,可以看到整個團隊在底層數(shù)據(jù)方面的需求處于井噴的狀態(tài),未來可能有更多更細的需求。

對于一個ToB公司來說,基本上可以把客戶旅程分為六個階段:認知、教育、選擇、支付、使用、增購。這是我們基于硅谷藍圖的SaaS獲客模型優(yōu)化后的劃分,對整個國內(nèi)ToB行業(yè)也有參考意義。認知:當我們想談一個客戶,首先要讓客戶了解分貝通。我們通過廣告或者電銷團隊去做一個初步的接觸,這個叫做認知。教育:當有一定需求,客戶想起分貝通這個公司,會聯(lián)系你做深度的交流和拜訪,這時是深度教育的階段,讓客戶了解我們能夠解決他的什么問題。選擇:通過多家的對比選擇了分貝通。使用:交付使用。增購:發(fā)現(xiàn)有一些其他功能還不錯增加購買,或者到了使用年限后繼續(xù)購買。

分貝通整體可以歸為三類部門,第一是業(yè)務(wù)部門,包括銷售、渠道、市場、客戶成功等;第二是運產(chǎn)部門,即運營+產(chǎn)品的業(yè)務(wù)研發(fā)部門,包括商城、商旅、費控、支付;第三是職能部門,包括產(chǎn)研、人力、財務(wù)。這三大部門對數(shù)據(jù)的需求不太一樣,對各個階段的需求也會有區(qū)別。

業(yè)務(wù)部門對數(shù)據(jù)的需求是非常強烈的。其中一個場景是客戶簽約,客戶購買了很多應用場景的模塊,有些模塊用得很好,有些模塊用得很差,客戶成功團隊希望知道哪些應用場景重點在用,哪些開通了也不用,還有哪些用戶在流失等等,這些都是對數(shù)據(jù)的需求。

運產(chǎn)部門對數(shù)據(jù)的核心要求在整個業(yè)務(wù)過程中存在卡點,希望我們通過數(shù)據(jù)去告訴它。

對于職能部門,產(chǎn)研關(guān)心的是產(chǎn)品上線后是否有人在用,用的怎樣,是否能做ABtest。人力關(guān)心的是現(xiàn)在的員工關(guān)注的點是哪些,是薪酬還是福利。財務(wù)關(guān)注的是現(xiàn)在的財務(wù)報表,數(shù)據(jù)的準確性如何,跟流水是否對得上,需要很明確的被告知,以上這些都是公司對數(shù)據(jù)的需求,各種各樣且非常強烈。

基于以上業(yè)務(wù)背景,我們需要選擇合適的技術(shù)來滿足業(yè)務(wù)的需求,從業(yè)務(wù)和技術(shù)兩個角度來考慮。首先,從業(yè)務(wù)方面考慮,當時團隊剛剛組建,人手比較匱乏,創(chuàng)業(yè)公司對人才的吸引力有限,因此我們的架構(gòu)的應用成本要特別低,功能盡量簡單,這樣才能更多地進行業(yè)務(wù)思考和數(shù)據(jù)賦能。同時,由于業(yè)務(wù)已經(jīng)發(fā)展到一定階段了,對數(shù)據(jù)的需求已經(jīng)比較迫切了,因此我們要快速的拿到結(jié)果。另外,從技術(shù)上考慮,原有技術(shù)數(shù)據(jù)已經(jīng)上云,因此我們必須選擇云端的解決方案,這樣有利于數(shù)據(jù)的傳輸。同時,我們有很多的數(shù)據(jù)來源表,但是數(shù)據(jù)量還比較小,數(shù)據(jù)量在TB規(guī)模,對實時的要求沒有那么高。

在不考慮自建IDC的前提下,當時擺在我們面前有三個選擇:第一個是比較成熟的云端的組建,阿里的MaxCompute+Hologres+實時計算Flink版+大數(shù)據(jù)開發(fā)治理平臺DataWork,第二個是云上開源的組建EMR,第三個是什么都不用,在云上自建Hadoop集群。這三個方案各有優(yōu)缺點,第一個方案的好處是應用成本嫁接給阿里云,但應用成本較高。第二個方案是比較折中的方案,有一定的靈活性,但是在運維上也需要一定的專業(yè)性。第三個方案需要招聘非常專業(yè)的應用團隊來組建自己的Hadoop集群,這在當時來看不太可行。最后綜合來看,我們選擇了方案一。

大數(shù)據(jù)建設(shè)方案

技術(shù)架構(gòu)選型結(jié)束后,我們開始從內(nèi)部梳理大數(shù)據(jù)建設(shè)的整體體系,逐步進行大數(shù)據(jù)建設(shè)。與大多數(shù)大數(shù)據(jù)體系架構(gòu)類似,底層是多源數(shù)據(jù)連接,往上做數(shù)據(jù)清洗,再往上進行離線和實時的數(shù)據(jù)存儲與計算,到數(shù)據(jù)倉庫的建設(shè),再到上面的應用層的建設(shè),左邊是組織流程規(guī)范的一些保障。

其中一些實踐方面的細節(jié)和總結(jié)值得分享。比如數(shù)據(jù)分析,對于ToB的公司來說是很大的一個模塊,這里的數(shù)據(jù)分析是指對外的數(shù)據(jù)分析,希望對現(xiàn)有的數(shù)據(jù)進行深入的分析。在組織架構(gòu)上我們將數(shù)倉和數(shù)據(jù)分析分成兩個團隊,數(shù)倉團隊負責整個ODS和DWD層的建設(shè),數(shù)據(jù)分析團隊負責上層的DWS層和ADS層的建設(shè),這是橫向的切分。這樣做的好處是,數(shù)倉團隊可以更好地關(guān)注底層數(shù)據(jù)的質(zhì)量,需要更多地跟研發(fā)打交道,數(shù)據(jù)分析團隊只需要對數(shù)據(jù)分析負責,而數(shù)據(jù)分析師可以更加關(guān)注整個數(shù)據(jù)的應用和業(yè)務(wù)的應用。這兩個團隊有著完全不一樣的技能,而且可以互相監(jiān)督。除此之外,實時和離線不分開的好處是對于大家的技術(shù)發(fā)展而言,技術(shù)棧比較完整。

在流程和規(guī)范方面,我們當時面臨的挑戰(zhàn)是內(nèi)部的業(yè)務(wù)線特別多,有十幾個業(yè)務(wù)線,不僅多,并且復雜,比如用車業(yè)務(wù)線,與滴滴的業(yè)務(wù)線相似。每個業(yè)務(wù)線的表很多,每個業(yè)務(wù)之間又是獨立開發(fā)的,規(guī)范需要統(tǒng)一,數(shù)據(jù)質(zhì)量也有很大差異,是非常棘手的問題。但是同時我們也有先發(fā)優(yōu)勢——從零開始建設(shè),所以我們當時確定一個原則,一定要邊建設(shè)邊治理而不是先建設(shè)后治理。我們摸索出了一套從業(yè)務(wù)需求到開發(fā)到上線的標準的動作,也就是所謂的SOP。比如將每周二、每周四作為固定的評審時間,評審的內(nèi)容都是按照自己的內(nèi)容自己的模板準備好,每次評審都有記錄,上線的時候根據(jù)評審記錄來看它是否完成是否需要修改,保證流程規(guī)范治理好。

一件事情做到60分是很簡單的,比如數(shù)倉的建立比較簡單,但是要做到極致,真正做出一個好的數(shù)倉,90分的數(shù)倉其實是一件很難的事情。

有了對于大數(shù)據(jù)整體體系的流程與思路以后,落地就需要工具的支持,下面介紹一下數(shù)據(jù)建模的工具。現(xiàn)在我們用的是阿里云的DataWorks智能數(shù)據(jù)建模,我們?nèi)ツ甑讌⒓恿怂麄兊墓珳y,今年開始正式使用。DataWorks智能數(shù)據(jù)建模最大的好處是,我們會把整個數(shù)倉的規(guī)劃和最終模型的產(chǎn)出做一個強關(guān)聯(lián),模型可以直接生成物理表,發(fā)布成功后也可以直接生成簡單的ETL代碼。之前我們在應用開發(fā)環(huán)境之前用SQL去建模,結(jié)果大家之間的標準不統(tǒng)一,就是一個人治的過程。有了DataWorks以后我們就變成了法治,通過工具實現(xiàn)了對整個數(shù)據(jù)的強治理,與原來相比,我們建模的便利性可能會差一些,比如想建一個數(shù)據(jù)匯總表,首先要建一個原始指標才能建立派生指標,然后搭建表模型,再關(guān)聯(lián)數(shù)據(jù)標準,這個流程相對而言會變長,剛開始的時候大家會不太習慣。雖然單個點的流程變長,但是整體效率提升了,數(shù)倉團隊都非常接受這種規(guī)范。對數(shù)據(jù)倉庫的長期建設(shè)而言,一些標準與規(guī)范的事前投入是非常有必要的,往往可以起到事半功倍的效果。

上圖是數(shù)倉整體架構(gòu)。在技術(shù)架構(gòu)方面,現(xiàn)在仍然是非常典型的一個lambda架構(gòu),離線與實時是分開的,結(jié)果在Hologres做了一層匯聚,有用到一些輔助的數(shù)據(jù)庫如MySQL和ES來存儲業(yè)務(wù)和標簽的數(shù)據(jù)。這里有一些基于我們業(yè)務(wù)場景的使用建議,數(shù)據(jù)應用鏈Hologres與MaxCompute有離線實時一體化的能力,Hologres存在兩種表存儲的方法,一個是數(shù)據(jù)不導出,直接加載MaxCompute表作為外表,一個是數(shù)據(jù)導入Hologres成為內(nèi)表。我們BI報表的業(yè)務(wù)場景是對外的,對我們來說是非常重要的,數(shù)據(jù)的穩(wěn)定性是需要首要保證的,所以我們更多地采用Hologres內(nèi)表方式去訪問ODS的數(shù)據(jù)而不是外表方式,這樣做的好處是一旦不小心將表的結(jié)果變更,如果是外表,BI工具只有在客戶訪問的時候才暴露出這種問題,但是采用內(nèi)表的方式在推數(shù)的時候就會發(fā)現(xiàn)問題,就可以避免線下穩(wěn)定性的問題。另外,我們每天都需要數(shù)據(jù)更新,我們不是每天都更新整個Hologres里面的表數(shù)據(jù),因為這樣效率會比較低,可能引起服務(wù)中斷。我們的方案是建立一個臨時的外表,生成臨時的內(nèi)表去替代線上表,這樣速度是非常快的,因為整個Hologres做了線路的優(yōu)化,效率非常高,直接去替代線上表,這樣對線上幾乎沒有影響。

再來介紹一下算法方面的經(jīng)驗。先說一下Batch Mode的離線模型,我們目前使用的是阿里云的機器學習PAI來滿足日常的建模場景,這個圖是非常典型的數(shù)據(jù)流過程。首先樣本經(jīng)過實景化到ODS上面,在MaxCompute上進行清洗和加工,最后也會實景化到一些表,在模型訓練階段去開發(fā)、訓練整個模型,訓練完后有兩種選擇,一是不需要線上部署,只需要做一些離線的大表預測,可以通過Designer去做一些數(shù)據(jù)的部署數(shù)據(jù)湖到整個ODS的table里。第二是如果想做模型的線上服務(wù),同樣可以把模型輸入到OSS層上面,通過EAS組件進行服務(wù),這個是我們現(xiàn)在用的比較多的離線模型的數(shù)據(jù)流程。

接下來是實時模型的流程,比如推薦等模型場景,對模型的實時性要求比較高。有一些比較通用的組件,比如Flink、kafka等進行數(shù)據(jù)的處理、特征的處理。模型的訓練階段先做一個模型的轉(zhuǎn)化,離線的模型轉(zhuǎn)化成實時的模型,然后進行訓練評估,最后掛到線上去訓練和替換,這里跟剛才的離線是不太一樣的。

ToB企業(yè)與ToC企業(yè)的技術(shù)選型區(qū)別

分貝通是典型的ToB企業(yè)。ToB和ToC企業(yè)存在一些差異,可以從三個方面來了解。首先是用戶群體,對于ToB來說,購買決策和使用性都是不一樣的,買一個軟件可能是財務(wù)的決策、KP的決策,但是員工在用。ToB企業(yè)的用戶粘性更高,一般按年簽約,公司已購買員工必須使用,同時對用戶有很強的專業(yè)性要求,針對不同的企業(yè)、角色,整個系統(tǒng)的設(shè)計是完全不同的,甚至相同行業(yè)相同崗位的需求也是完全不同的。ToC的采購決策者是個人,用戶不滿意可以放棄使用,粘性相對較低,用戶群體相對公眾化,用戶對軟件的需求有非常多的共性。

在應用場景方面,ToB的場景非常豐富,我們做的只能解決客戶在生產(chǎn)過程當中某一個環(huán)節(jié)的問題,無法覆蓋它所有方面的問題,因為專業(yè)性太強,一個問題的處理流程往往會很長,ToB在國內(nèi)還沒有千億美金的互聯(lián)網(wǎng)公司。ToC比較簡單,滿足大家日常生活中的需求,例如吃、穿、住、行、玩,很容易在這一領(lǐng)域誕生千億美金的獨角獸互聯(lián)網(wǎng)公司,這決定了這兩個企業(yè)的企業(yè)規(guī)模。

在業(yè)務(wù)流程方面, ToB領(lǐng)域業(yè)務(wù)流程都很長,通常申請審批交易結(jié)算等等,一次交易涉及到很多環(huán)節(jié),但是ToC相對簡單,例如網(wǎng)購下單僅需幾秒鐘,非常簡單。

以上就是ToB和ToC企業(yè)的區(qū)別,也就決定了以下的技術(shù)特點,ToB的數(shù)據(jù)量相對較小,在做數(shù)字化轉(zhuǎn)型的時候,包括我們自己,數(shù)據(jù)量還是TB級別,處于中小規(guī)模,但是業(yè)務(wù)相對復雜,對數(shù)倉的建模能力要求較高,需要了解業(yè)務(wù)后才能更好地去建模。整個作業(yè)的處理時間會比較短,我們現(xiàn)在的作業(yè)基本在分鐘級別,因此我們的容錯恢復很快,對于技術(shù)框架的選型要求會低一些,選錯了后面還有翻盤的機會。但對于ToC來說,基礎(chǔ)架構(gòu)完全不一樣,一旦選錯了或版本需要升級,代價會非常高昂,這是在做數(shù)倉這兩種模型的區(qū)別。

未來展望,可以分為兩個方面,一個是業(yè)務(wù)方面,希望可以識別公司更多的數(shù)字化轉(zhuǎn)型場景,我們希望通過產(chǎn)品化和平臺化更好地幫助公司去做業(yè)務(wù)化、智能化的事情;同時推進業(yè)務(wù)的BP機制,推動業(yè)務(wù)的緊密合作,數(shù)據(jù)中臺也要深入到業(yè)務(wù)中去,去了解業(yè)務(wù)內(nèi)在的東西而不是等著業(yè)務(wù)提需求;現(xiàn)在更多的是報表類的支撐,希望未來發(fā)展為報告、智能化產(chǎn)品的支撐;雖然分貝通是企業(yè)支付的場景,但更多的是差旅方面,差旅是很復雜的過程,比如說出一次差,要做很多的決策,我們希望探索更加智能的用戶體驗,降低決策成本。

在技術(shù)層面,隨著技術(shù)和數(shù)據(jù)的不斷積累,對實時的數(shù)據(jù)要求越來越高,我們在實時與HTAP這塊,會做一些深度的探索;現(xiàn)在的業(yè)務(wù)比較流行湖倉一體化,之前沒有這種需求,現(xiàn)在我們需要管理語音、文本等大量數(shù)據(jù),需要去解決非結(jié)構(gòu)化數(shù)據(jù)儲存和管理;第三是批流一體化,我們使用的是lambda架構(gòu),應用比較精簡但是存在開發(fā)和運維上成本的重復,我們希望在這些方面繼續(xù)探索來統(tǒng)一整個數(shù)倉,真正實現(xiàn)存儲和數(shù)倉統(tǒng)一的架構(gòu),減少額外的成本,這將是我們未來探索的幾個方向。

編 輯:T01
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張云明:大部分國家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動 共筑信息保障堤壩
2023MWC上海世界移動通信大會
中國5G商用四周年
2023年中國國際信息通信展覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像