關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第318章 腸粉

資料分析的入口y也是資料分

析過程中相當重要的一個環節y它透過各種技術手段把外部各

種資料來源產生的資料實時或非實時地採集並加以利用。

感測器是一種檢測裝置y能感受到被測量的資訊y並能將感受到的資訊y

按一定規律變換成為電訊號或其他所需形式的資訊輸出y以滿足資訊的傳

輸處理儲存顯示記錄和控制等要求在工作現場y我們會安裝很

多的各種型別的感測器y如壓力感測器溫度感測器流量感測器聲音

感測器電引數感測器等等

?感測器對環境的適應能力很強y可以應對各種惡劣的工作環境在日常

生活中y如溫度計麥克風dv錄影手機拍照功能等都屬於感測器資料

採集的一部分y支援圖片音訊影片等檔案或附件的採集工作。

網際網路資料的採集通常是藉助於網路爬蟲來完成的所謂

網路爬蟲

y就

是一個在網上到處或定向抓取網頁資料的程式抓取網頁的一般方法是y

定義一個入口頁面y然後一般一個頁面中會包含指向其他頁面的urly於

是從當前頁面獲取到這些網址加入到爬蟲的抓取佇列中y然後進入到新頁

面後再遞迴地進行上述的操作爬蟲資料採集方法可以將非結構化資料從

網頁中抽取出來y將其儲存為統一的本地資料檔案y並以結構化的方式存

儲它支援圖片音訊影片等檔案或附件的採集y附件與正文可以自動

關聯。

許多公司的業務平臺每天都會產生大量的日誌檔案日誌檔案資料一般由數

據源系統產生y用於記錄資料來源的執行的各種操作活動y比如網路監控的流

量管理金融應用的股票記賬和web伺服器記錄的使用者訪問行為對於這些

日誌資訊y我們可以得到出很多有價值的資料透過對這些日誌資訊進行採

集y然後進行資料分析y就可以從公司業務平臺日誌資料中挖掘得到具有潛

在價值的資訊y為公司決策和公司後臺伺服器平臺效能評估提供可靠的資料

保證系統日誌採集系統做的事情就是收集日誌資料提供離線和線上的實時

分析使用很多網際網路企業都有自己的海量資料採集工具y多用於系統日誌

採集y如hadoop的chukwaycloudera的f露meyfacebook的scribe等y

這些工具均採用分散式架構y能滿足每秒數百mb的日誌資料採集和傳輸需

求。

一些企業會使用傳統的關係型資料庫mysql和oracle等來儲存業務系統數

據y除此之外yredis和ngodb這樣的nosql資料庫也常用於資料的

儲存企業每時每刻產生的業務資料y以資料庫一行記錄形式被直接寫入

到資料庫中企業可以藉助於etl?

extract-transform-load?工具y把

分散在企業不同位置的業務系統的資料y抽取轉換載入到企業資料倉

庫中y以供後續的商務智慧分析使用透過採集不同業務系統的資料並統

一儲存到一個資料倉儲中y就可以為分散在企業不同地方的商務資料提供

一個統一的檢視y滿足企業的各種商務決策分析需求。

資料採集是資料系統必不可少的關鍵部分y也是資料

平臺的根基根據不同的應用環境及採集物件y有多

種不同的資料採集方法y包括x

?系統日誌採集

?分散式訊息訂閱分發

?etl

?網路資料採集。

f露me是cloudera提供的一個高可用的y高可靠的y分散式的海量日誌採集聚合

和傳輸的系統yf露me支援在日誌系統中定製各類資料傳送方y用於收集資料]同

時yf露me提供對資料進行簡單處理y並寫到各種資料接受方?可定製?的能力。