資料來源預設不會發生變化Y這就使得使用者不必擔憂EtL任務開銷對資料來源的影
響Y但同時也意味著Y對於商務使用者而言Y資料和應用並非任何時候都是可
用的。
有多種技術可以為實時主動資料倉儲提供資料整合服務Y比如指令碼EtL
EAI和cdc但是Y只有部分技術能提供實時(連續)的資料整合x
?
3?EAIEAI解決方案通常和EtL解決方案並存Y從而增強EtL的功能EAI
解決方案在源系統和目標系統之間進行連續的資料分發Y並且保證資料的成
功分發Y同時提供高階的工作流支援和基本的資料轉換但是YEAI受到資料
量的限制Y因為EAI的初衷是為了實現應用的整合而不是資料的整合Y即它是
用來呼叫應用或者分發命令和訊息的然而Y由於EAI具有在資料整合過程中
實時分發資料和維護資料一致性的特性Y所以也就能夠提供實時資料獲取的
能力Y而這種能力正是實時主動資料倉儲所需要的。
有多種技術可以為實時主動資料倉儲提供資料整合服務Y比如指令碼EtL
EAI和cdc但是Y只有部分技術能提供實時(連續)的提供了連續變化資料的捕捉和分
發能力Y並且只需要很低的開銷和時間延遲cdc在提交的資料事務上進行
操作Y從oLtp系統中捕獲變化的資料Y再進行基本的轉換Y最後把資料傳送
到資料倉儲中雖然在體系結構上Ycdc屬於非同步的Y但它表現出類似同步
的行為Y資料延遲只有不到1秒的時間Y同時能夠維護資料事務的一致性。
EtL是將業務系統的資料經過抽取?
Extract?清洗轉換?
transform?
之後載入?
Load?到資料倉儲的過程Y目的是將企業中的分散零亂
標準不統一的資料整合到一起Y為企業的決策提供分析依據
EtL是指從原系統中抽取資料Y並根據實際商務需求對資料進行轉換Y然
後把轉換結果載入到目標資料儲存結構中源和目標通常都是資料庫和文
件Y也可以是訊息佇列等。
資料抽取
可以採用週期性的pull機制或者事件驅動的push機制
pull機制支援資料整合Y通常以批處理的方式工作
push機制通常採用線上方式工作Y可以把資料變化傳播到目標資料儲存
結構。
資料轉換
包括資料重構和整合資料內容清洗或整合
資料載入
對整個目標資料儲存結構進行重新整理Y或者只是對目標資料儲存進行增量更
新。
早期的EtL解決方案通常以固定的週期執行批處理工作Y從平面檔案和
關聯式資料庫中捕捉資料Y並把這些資料整合到資料倉儲中最近這幾年Y
商業EtL工具供應商已經對產品做了很大的改進Y對產品功能進行了擴
展Y具體如下x
1額外的資料來源
2額外的目標
3改進的資料轉換功能
4更好的管理
5更好的效能
6改進的可用性
7增強的安全性
8支援基於資料聯邦的資料整合方法
資料抽取模組的功能x
1確定資料來源Y即從哪些源系統進行資料抽取。
2定義資料介面Y對每個原始檔及系統的每個欄位進行詳細說明。
3確定資料抽取的方式x是主動抽取還是由源系統推送Y是增量抽取。
還是全量抽取Y是每日抽取還是每月抽取。
資料清洗與切換
資料清洗與轉換x
資料清洗主要是對不完整資料錯誤資料重複資料進行處理
資料轉換包括如下操作