資料是指對客觀事件進行記錄並可以鑑別的符號y
是對客觀事物的性質狀態以及相互關係等進行記
載的物理符號或這些物理符號的組合y是可識別的
抽象的符號
?資料和資訊是兩個不同的概念y資訊是較為宏觀
的概念y它由資料的有序排列組合而成y傳達給讀
者某個概念方法等y而資料則是構成資訊的基本單
位y離散的資料沒有任何實用價值。
資料也被稱為“未來的石油”
涉及到國家安全等方面。
計算機系統中的資料組織形式主要有兩種y即檔案和
資料庫
?
1?檔案x計算機系統中的很多資料都是以檔案形式
存在的y比如一個word檔案一個文字檔案一個
網頁檔案一個圖片檔案等等
?
2?資料庫x計算機系統中另一種非常重要的資料組
織形式就是資料庫y資料庫已經成為計算機軟體開發
的基礎和核心。
過去x一旦資料的基本用途實現了y往往就會被
刪除y一方面是由於過去的儲存技術落後y人們
需要刪除舊資料來儲存新資料y另一方面則是人
們沒有認識到資料的潛在價值
現在x資料的價值不會因為不斷被使用而削減y
反而會因為不斷重組而產生更大的價值
將來x各類收集來的資料都應當被儘可能長時間
地儲存下來y同時也應當在一定條件下與全社會
分享y併產生價值。
人類進入資訊社會以後y資料以自然方式增長y其產生不以人
的意志為轉移
從1986年開始到2010年的20年時間裡y全球資料的數量增長
了100倍y今後的資料量增長速度將更快y我們正生活在一個
資料爆炸的時代。
資料分析過程包括x資料採集與預處理資料儲存與管理資料處理與
分析資料視覺化等
?
1?資料採集與預處理x採用各種技術手段把外部各種資料來源產生的數
據實時或非實時地採集預處理並加以利用
?
2?資料儲存與管理x利用計算機硬體和軟體技術對資料進行有效的存
儲和應用的過程y其目的在於充分有效地發揮資料的作用
?
3?資料處理與分析x資料分析是指用適當的分析方法?來自統計學
機器學習和資料探勘等領域?y對收集來的資料進行分析y提取有用信
息和形成結論的過程
?
4?資料視覺化x將資料集中的資料以圖形影象形式表示y並利用資料
分析和開發工具發現其中未知資訊的處理過程。
資料採集與預處理包含了資料採集和資料預處理兩大任務
資料採集是指從感測器和智慧裝置企業線上系統企業離線
系統社交網路和網際網路平臺等獲取資料的過程需要採集的
資料包括rfid資料感測器資料使用者行為資料社交網路交
互資料及移動網際網路資料等各種型別的結構化半結構化及非
結構化的海量資料
資料採集技術是大資料技術的重要組成部分y已經廣泛應用於
國民經濟各個領域y隨著大資料技術的發展和普及y大資料採
集技術會迎來更加廣闊的發展前景。
資料預處理目標是為後續的資料分析工作提供可靠和高質量的
資料y減少資料集規模y提高資料抽象程度和資料分析效率
資料預處理任務主要包括資料清洗資料整合資料轉換和數
據脫敏等經過這些步驟y我們可以從大量的資料屬性中提取
出一部分對目標輸出有重要影響的屬性y降低源資料的維數y
去除噪聲y為資料分析演算法提供乾淨準確且有針對性的資料y
減少資料分析演算法的資料處理量y改進資料質量y提高分析效
率。
資料採集y又稱
資料獲取
y是