二維碼
微世推網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁 » 企業(yè)商訊 » 每日商訊 » 正文

這可能是全網(wǎng)最全的數(shù)據(jù)倉庫建設(shè)方法論_

放大字體  縮小字體 發(fā)布日期:2023-04-23 17:29:45    作者:郭德軒    瀏覽次數(shù):241
導(dǎo)讀

猥瑣解決多數(shù)據(jù)源導(dǎo)致得口徑不一致、數(shù)據(jù)無關(guān)聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低@問題,企業(yè)需要構(gòu)建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進(jìn)行規(guī)整和高效利用。除此以外,由于直連業(yè)務(wù)系統(tǒng)支撐多方報(bào)表導(dǎo)致讀寫交叉性能降

猥瑣解決多數(shù)據(jù)源導(dǎo)致得口徑不一致、數(shù)據(jù)無關(guān)聯(lián)、數(shù)據(jù)質(zhì)量差、缺少歷史數(shù)據(jù)、開發(fā)效率低@問題,企業(yè)需要構(gòu)建企業(yè)級數(shù)據(jù)倉庫,對數(shù)據(jù)進(jìn)行規(guī)整和高效利用。除此以外,由于直連業(yè)務(wù)系統(tǒng)支撐多方報(bào)表導(dǎo)致讀寫交叉性能降低,影響正常業(yè)務(wù)系統(tǒng)使用得問題也可解決。

構(gòu)建企業(yè)級數(shù)據(jù)倉庫得步驟分為調(diào)研、數(shù)倉設(shè)計(jì)、數(shù)倉實(shí)施和測試上線四個(gè)主要環(huán)節(jié)。

1 需求調(diào)研

調(diào)研前期,需要明確本次項(xiàng)目在此階段成功得要素,其次是劃分責(zé)任矩陣,收集相關(guān)資料并制定合適得調(diào)研策略。與用戶需求相關(guān)得信息應(yīng)該足夠得詳細(xì)。最終要交付給最終用戶項(xiàng)目計(jì)劃及需求說明,需要得情況下需要制定災(zāi)備計(jì)劃,以便數(shù)據(jù)倉庫專業(yè)從事故中恢復(fù)。

調(diào)研責(zé)任矩陣

調(diào)研執(zhí)行分為四步驟:

第壹步對本次項(xiàng)目得目標(biāo),整體平臺得范圍和當(dāng)前IT得技術(shù)架構(gòu)進(jìn)行調(diào)研與整理;第二步針對本期項(xiàng)目涉及業(yè)務(wù)部門進(jìn)行單獨(dú)訪談,明確指標(biāo),確認(rèn)口徑,梳理前端樣式與功能并確定相應(yīng)得數(shù)據(jù)標(biāo)準(zhǔn);第三步可根據(jù)上一輪調(diào)研結(jié)果所設(shè)計(jì)得藍(lán)圖進(jìn)行確認(rèn)和修改并在數(shù)據(jù)側(cè)對底層數(shù)據(jù)進(jìn)行探源;最后將調(diào)研結(jié)果與方案藍(lán)圖進(jìn)行最終得多方確認(rèn)并審核簽字。

這一階段得交付物為系統(tǒng)藍(lán)圖框架與當(dāng)前數(shù)據(jù)基礎(chǔ)和質(zhì)量情況表@,具體得執(zhí)行過程見下圖:

指標(biāo)確認(rèn)框架

2 數(shù)倉設(shè)計(jì)

數(shù)倉構(gòu)建得核心工作是分層及建模,分層架構(gòu)設(shè)計(jì)是為應(yīng)用數(shù)據(jù)資源采集、存儲、處理和交換提供建設(shè)性依據(jù),而數(shù)據(jù)模型將決定數(shù)據(jù)倉庫系統(tǒng)得增長性和性能,數(shù)倉一般分為 ODS(貼源層)層、DW 層(數(shù)據(jù)倉儲層)、DM 層(數(shù)據(jù)集市層)三層架構(gòu),依據(jù)企業(yè)實(shí)際情況會有所調(diào)整,而數(shù)倉模型大多采用維度建模和范式建模。

數(shù)據(jù)分層:

每一個(gè)數(shù)據(jù)層都有它得作用域,在使用表得時(shí)候能更方便地定位和理解,因此需要針對數(shù)據(jù)進(jìn)行分層建設(shè),且數(shù)據(jù)分層也利于數(shù)據(jù)血緣追蹤、屏蔽原始數(shù)據(jù)得異常,通過開發(fā)一些中間層,還專業(yè)起到減少重復(fù)開發(fā)得作用。

數(shù)倉通用技術(shù)框架

數(shù)倉建模得流程:

數(shù)倉模型得設(shè)計(jì),按照概念模型(主題域模型)——邏輯模型——物理模型得流程進(jìn)行,邏輯模型和物理模型通常采用維度建模得辦法,以星型和雪花型模型來組織數(shù)據(jù),維度建模得兩個(gè)基本元素是事實(shí)表和維度表。而維度建模也分為確定業(yè)務(wù)主題、定義粒度、確定維度和確認(rèn)事實(shí)表四個(gè)步驟。該階段得交付物為針對數(shù)據(jù)源得概念模型、邏輯模型和物理模型。

數(shù)倉建模一般流程

DWD層維度建模步驟

3 數(shù)倉實(shí)施開發(fā)——ETL

ETL過程常常需要最長得項(xiàng)目時(shí)長,專家會占用數(shù)倉開發(fā)得50%及以上,因?yàn)楂@取源數(shù)據(jù)、理解業(yè)務(wù)規(guī)則、邏輯和物理數(shù)據(jù)模型需要花費(fèi)大量時(shí)間。ETL 通過從源系統(tǒng)數(shù)據(jù)庫實(shí)時(shí)同步數(shù)據(jù)至數(shù)據(jù)倉庫貼源層,基礎(chǔ)層、通用層、應(yīng)用層基于貼源層得增量數(shù)據(jù)以實(shí)時(shí)指標(biāo)加工得規(guī)則進(jìn)行定時(shí)(T+1 天)加工處理。

ETL過程

4 測試上線及規(guī)范建設(shè)

測試上線

測試上線得主要目得是猥瑣測試當(dāng)前數(shù)倉開發(fā)完畢后數(shù)據(jù)是否準(zhǔn)確,數(shù)據(jù)相應(yīng)得速度是否及時(shí),包括 ETL 任務(wù)得各環(huán)節(jié)是否出現(xiàn)異常@,測試完畢通過業(yè)務(wù)確認(rèn)后即可上線。

數(shù)據(jù)規(guī)范

數(shù)倉建設(shè)得規(guī)范是猥瑣后續(xù)開發(fā)人員專業(yè)遵從規(guī)范,培養(yǎng)良好得習(xí)慣,也專業(yè)提升數(shù)倉開發(fā)得可維護(hù)性,便于用戶得溝通及交流。數(shù)據(jù)規(guī)范得內(nèi)容包括數(shù)倉設(shè)計(jì)規(guī)范、命名規(guī)范、ETL 規(guī)范、報(bào)表規(guī)范@,數(shù)據(jù)規(guī)范建設(shè)為后續(xù)得數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)得管理建立了良好得基礎(chǔ)。

數(shù)倉規(guī)范文檔

 
(文/郭德軒)
免責(zé)聲明
本文為郭德軒原創(chuàng)作品?作者: 郭德軒。歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明原文出處:http://m.nyqrr.cn/qysx/show-143469.html 。本文僅代表作者個(gè)人觀點(diǎn),本站未對其內(nèi)容進(jìn)行核實(shí),請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,作者需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請及時(shí)聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright?2015-2023 粵公網(wǎng)安備 44030702000869號

粵ICP備16078936號

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

24在線QQ: 770665880

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

韓瑞 小英 張澤

工作時(shí)間:

周一至周五: 08:00 - 24:00

反饋

用戶
反饋