關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第319章 困死我了

予適當的處理常用的處理方法有x估算

整例刪除變數刪除和成對刪除

?

2?異常值處理根據每個變數的合理取值範圍和相互關係Y檢

查資料是否合乎要求Y發現超出正常範圍邏輯上不合理或者相

互矛盾的資料。

資料清洗主要是對缺失值重複值異常值和資料型別有誤的資料

進行處理Y資料清洗的內容主要包括四點

?

3?資料型別轉換資料型別往往會影響到後續的資料處理分析

環節Y因此Y需要明確每個欄位的資料型別Y比如Y來自A表的

學號是字元型Y而來自b表的欄位是日期型Y在資料清洗的時候

就需要對二者的資料型別進行統一處理

?

4?重複值處理重複值的存在會影響資料分析和挖掘結果的準

確性Y所以Y在資料分析和建模之前需要進行資料重複性檢驗Y

如果存在重複值Y還需要進行重複值的刪除。

在進行資料清洗時Y需要注意如下事項x

?

1?資料清洗時優先進行缺失值異常值和資料型別轉換的操作Y最後進

行重複值的處理

?

2?在對缺失值異常值進行處理時Y要根據業務的需求進行處理Y這些

處理並不是一成不變的Y常見的填充包括x統計值填充?常用的統計值有

均值中位數眾數?前\/後值填充?一般使用在前後資料存在關聯的情

況下Y比如資料是按照時間進行記錄的?零值填充。

在進行資料清洗時Y需要注意如下事項x

?

3?在資料清洗之前Y最為重要的對資料表的檢視Y要了解表的結構和發

現需要處理的值Y這樣才能將資料清洗徹底

?

4?資料量的大小也關係著資料的處理方式

?

5?在匯入資料表後Y一般需要將所有列一個個地進行清洗Y來保證資料

處理的徹底性Y有些資料可能看起來是可以正常使用的Y實際上在進行處

理時可能會出現問題?比如某列資料在檢視時看起來是數值型別Y但是其

實這列資料的型別卻是字串Y這就會導致在進行數值操作時無法使用?。

資料處理常常涉及資料整合操作Y即將來自多個資料來源的數

據Y結合在一起形成一個統一的資料集合Y以便為資料處理

工作的順利完成提供完整的資料基礎

在資料整合過程中Y需要考慮解決以下幾個問題x

?

1?模式整合問題

?

2?冗餘問題

?

3?資料值衝突檢測與消除問題。

常見的資料轉換策略包括x

?

1?平滑處理幫助除去資料中的噪聲Y常用的方法包括分箱迴歸

和聚類等

?

2?聚集處理對資料進行匯總操作例如Y每天的資料經過匯總操

作可以獲得每月或每年的總額這一操作常用於構造資料立方體或對數

據進行多粒度的分析

?

3?資料泛化處理用更抽象的概念來取代低層次的資料物件例如Y

街道屬性可以泛化到更高層次的概念Y如城市國家Y再比如年齡屬性

可以對映到更高層次的概念Y如青年中年和老年。

規範化處理將屬性值按比例縮放Y使之落入一個特定的區間Y

比如0~1常用的資料規範化方法包括min-max規範化Z-Score規範化

和小數定標規範化等

?

5?屬性構造處理根據已有屬性集構造新的屬性Y後續資料處理直

接使用新增的屬性例如Y根據已知的質量和體積屬性Y計算出新的屬

性密度。

我怎麼又困了。