使用者對品牌宣傳的感知和認可度。
監控品牌搜尋量和使用者轉化率等指標,評估品牌宣傳效果。
採用增量欄位方式捕獲變化資料的原理是Y在源系統業務表資料表中增
加增量欄位Y增量欄位可以是時間欄位Y同時也可以是自增長欄位Y當
源業務系統中資料新增或者被修改時Y增量欄位就會產生變化Y時間戳
欄位就會被修改為相應的系統時間Y自增長欄位就會增加
每當EtL工具進行增量資料獲取時Y只需比對最近一次資料抽取的增量
欄位值Y就能判斷出來哪些是新增資料Y哪些是修改資料。
這種資料抽取方式的優點是抽取效能比較高Y判斷過程比較簡單YEtL
系統設計清晰Y源資料抽取相對清楚簡單Y可以實現資料的遞增載入
最大的侷限性就是由於某些資料庫在進行設計的時候Y未考慮到增量字
段Y需要對業務系統進行改造Y基於資料庫其他方面的原因Y還有可能
出現漏資料的情況。
3. 全量同步
全量同步又叫 全表刪除插入方式
Y是指每次抽取前先刪除目標表
資料Y抽取時全新載入資料該方式實際上將增量抽取等同於全量
抽取對於資料量不大Y全量抽取的時間代價小於執行增量抽取的
演算法和條件代價時Y可以採用該方式。
這種方式的優點是對已有系統表結構不產生影響Y不需要修改業務
操作程式Y所有抽取規則由EtL完成Y管理維護統一Y可以實現數
據的遞增載入Y沒有風險
缺點是EtL比對較複雜Y設計較為複雜Y速度較慢與觸發器和時
間戳方式中的主動通知不同Y全表比對方式是被動的進行全表資料
的比對Y效能較差當表中沒有主鍵或唯一列且含有重複記錄時Y
全表比對方式的準確性較差。
日誌比對的方式是透過獲取資料庫層面的日誌來捕獲到變化的資料Y
不需要改變源業務系統資料庫相關表結構Y資料同步的效率比較高Y
同步的及時性也比較快Y最大的問題就是不同資料庫的日誌檔案結
構存在較大的差異性Y實施分析起來難度比較大Y同時Y需要具備
訪問源業務庫日誌表檔案的許可權Y存在一定的風險性Y所以這種方
式有很大的侷限性。
日誌比對方式中比較成熟的技術是cdc(change data capture)技術Y
作用同樣是能夠捕獲到上一次抽取之後產生的相關變化資料Y當
cdc對源業務表進行新增更新和刪除等相關操作的時就可以捕獲
到相關變化的資料Y相對於增量欄位方式Ycdc方式能夠較好地捕
獲到刪除資料Y並寫入相關資料庫日誌表Y然後再透過檢視或者別
的某種可操作的方式將捕獲到的變化同步到資料倉儲當中去。
這種方式的優點是EtL同步效率較高Y不需要修改業務系統表結構Y
可以實現資料的遞增載入缺點是業務系統資料庫版本與產品不統
一Y難以統一實現Y實現過程相對複雜Y並且需深入研究方能實現
這種方式也透過第三方工具實現Y但是Y一般都是商業軟體Y費用
較高。