分散式訊息訂閱分發也是一種常見的資料採集方式Y其中YKaa就是一種具有代
表性的產品Kaa是由LinkedIn公司開發的一種高吞吐量的分散式釋出訂閱訊息
系統Y使用者透過Kaa系統可以釋出大量的訊息Y同時也能實時訂閱消費訊息
Kaa的架構包括以下元件x話題生產者服務代理消費者。
EtL是英文Extract-transform-Load的縮寫Y常用於資料倉儲中的資料採
集和預處理環節顧名思義YEtL從原系統中抽取資料Y並根據實際商務
需求對資料進行轉換Y並把轉換結果載入到目標資料儲存中可以看出Y
EtL既包含了資料採集環節Y也包含了資料預處理環節
Kettle是一款國外開源的EtL工具Y使用Java語言編寫Y可以在
windowsLinuxUnix上執行Y資料抽取高效穩定。
網路資料採集是指透過網路爬蟲或網站公開應用程式程式設計介面等方式從
網站上獲取資料資訊該方法可以將非結構化資料從網頁中抽取出來Y
將其儲存為統一的本地資料檔案Y並以結構化的方式儲存它支援圖片
音訊影片等檔案的採集Y檔案與正文可以自動關聯網路資料採集的
應用領域十分廣泛Y包括搜尋引擎與垂直搜尋平臺搭建與運營Y綜合門
戶與行業門戶地方門戶專業入口網站資料支撐與流量運營Y電子政
務與電子商務平臺的運營Y知識管理與知識共享Y企業競爭情報系統的
運營YbI商業智慧系統Y資訊諮詢與資訊增值Y資訊保安和資訊監控等。
資料清洗的主要應用領域包括資料倉儲與資料探勘資料質量管理
?
1?資料倉儲與資料探勘資料清洗對於資料倉儲與資料探勘應用來
說Y是核心和基礎Y它是獲取可靠有效資料的一個基本步驟資料倉
庫是為了支援決策分析的資料集合Y在資料倉儲領域Y資料清洗一般是
應用在幾個資料庫合併時或者多個資料來源進行整合時例如Y消除資料
庫中的重複記錄資料探勘是建立在資料倉儲基礎上的增值技術Y在數
據挖掘領域Y經常會遇到挖掘出來的特徵資料存在各種異常情況Y如數
據缺失資料值異常等對於這些情況Y如果不加以處理Y就會直接影
響到最終挖掘模型的使用效果Y甚至會使得建立模型任務失敗因此Y
在資料探勘過程中Y資料清洗是第一步。
資料質量管理資料質量管理貫穿資料生命週期的全過程在
資料生命週期中Y可以透過資料質量管理的方法和手段Y在資料生成
使用消亡的過程裡Y及時發現有缺陷的資料Y然後藉助資料管理手
段Y將資料正確化和規範化Y從而達到符合要求的資料質量標準總
體而言Y資料質量管理覆蓋質量評估資料去噪資料監控資料探
查資料清洗資料診斷等方面Y而在這個過程中Y資料清洗是決定
資料質量好壞的重要因素。
資料清洗按照實現方式Y可以分為手工清洗和自動清洗
?
1?手工清洗x手工清洗是透過人工方式對資料進行檢查Y發現資料中
的錯誤這種方式比較簡單Y只要投入足夠的人力物力財力Y也能
發現所有錯誤Y但效率低下在大資料量的情況下Y手工清洗資料幾乎
是不可能的
?
2?自動清洗x自動清洗是透過專門編寫的計算機應用程式來進行資料
清洗這種方法能解決某個特定的問題Y但不夠靈活Y特別是在清理過
程需要反覆進行時?一般來說,資料清理一遍就達到要求的很少?Y程式
複雜Y清理過程變化時工作量大而且Y這種方法也沒有充分利用目前
資料庫提供的強大的資料處理能力。
資料清洗主要是對缺失值重複值異常值和資料型別有誤的資料
進行處理Y資料清洗的內容主要包括四點
?
1?缺失值處理由於調查編碼和錄入誤差Y資料中可能存在
一些缺失值Y需要給