文章詳情頁

Python數據標準化的實例分析

瀏覽：83日期：2022-07-29 08:19:16

說明

1、將原始數據轉換為均值為0，標準差在1范圍內。

2、對標準化而言：如果出現異常點，由于有一定數據量，少量異常點對平均值的影響不大，因此方差變化不大。

實例

def stand_demo(): ''' 標準化 :return: '''# 1. 獲取數據 data = pd.read_csv(’dating.txt’) data = data.iloc[:, :3] print(’data:n’, data) # 2.實例化一個轉換器類 transfer = StandardScaler()# 3.調用fit_transform() data_new = transfer.fit_transform(data) print(’data_new:n’, data_new) return None

知識點擴充：

幾種標準化方法：

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’，其公式為：

新數據=（原數據-最小值）/（最大值-最小值）

這種方法能使數據歸一化到一個區域內，同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將A的原始值x使用z-score標準化到x’。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況，或有超出取值范圍的離群數據的情況。

新數據=（原數據-均值）/標準差

這種方法適合大多數類型數據，也是很多工具的默認標準化方法。標準化之后的數據是以0為均值，方差為以的正太分布。但是Z-Score方法是一種中心化方法，會改變原有數據的分布結構，不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征，表現為標準差小，很多元素值為0，最常見的稀疏數據集是用來做協同過濾的數據集，絕大部分數據都是0。對稀疏數據做標準化，不能采用中心化的方式，否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化（MaxAbs）即根據最大值的絕對值進行標準化，假設原轉換的數據為x，新數據為x’，那么x’=x/|max|，其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1]，也不破壞原數據結構的特點，因此也可以用于稀疏數據，一些稀疏矩陣。

針對離群點的RobustScaler

有些時候，數據集中存在離群點，用Z-Score進行標準化，但是結果不理想，因為離群點在標準化后喪失了利群特性。

RobustScaler針對離群點做標準化處理，該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

到此這篇關于Python數據標準化的實例分析的文章就介紹到這了,更多相關Python數據標準化是什么內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python Selenium等待元素出現的具體方法下一條：Python特征降維知識點總結

相關文章：

1. 解決啟動django,瀏覽器顯示“服務器拒絕訪問”的問題2. Yii2.0引入CSS,JS文件方法3. JSP數據交互實現過程解析4. vue使用webSocket更新實時天氣的方法5. Nginx+php配置文件及原理解析6. python virtualenv和flask安裝沒有名為flask的模塊7. 關于HTML5的img標簽8. 討論CSS中的各類居中方式9. CSS3實現動態翻牌效果仿百度貼吧3D翻牌一次動畫特效10. java中throws實例用法詳解

排行榜

					
					JSP數據交互實現過程解析
vue使用webSocket更新實時天氣的方法
Nginx+php配置文件及原理解析
Yii2.0引入CSS,JS文件方法
解決啟動django,瀏覽器顯示“服務器拒絕訪問”的問題
Docker究竟是什么 為什么這么流行 它的優點和缺陷有哪些？
javaScript實現網頁版的彈球游戲
IOS利用CocoaHttpServer搭建手機本地服務器
java中throws實例用法詳解
python virtualenv和flask安裝沒有名為flask的模塊
Opencv+Python識別PCB板圖片的步驟