python數(shù)據(jù)預(yù)處理 :樣本分布不均的解決(過采樣和欠采樣)
何為樣本分布不均:
樣本分布不均衡就是指樣本差異非常大,例如共1000條數(shù)據(jù)樣本的數(shù)據(jù)集中,其中占有10條樣本分類,其特征無論如何你和也無法實(shí)現(xiàn)完整特征值的覆蓋,此時(shí)屬于嚴(yán)重的樣本分布不均衡。
為何要解決樣本分布不均:
樣本分部不均衡的數(shù)據(jù)集也是很常見的:比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、設(shè)備故障、大企業(yè)客戶流失等。
樣本不均衡將導(dǎo)致樣本量少的分類所包含的特征過少,很難從中提取規(guī)律,即使得到分類模型,也容易產(chǎn)生過度依賴于有限的數(shù)量樣本而導(dǎo)致過擬合問題,當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí),模型的準(zhǔn)確性和健壯性將會很差。
樣本分布不均的解決方法:
過采樣 通過增加分類中樣本較少的類別的采樣數(shù)量來實(shí)現(xiàn)平衡,最直接的方法是簡單復(fù)制小樣本數(shù)據(jù),缺點(diǎn)是如果特征少,會導(dǎo)致過擬合的問題。經(jīng)過改進(jìn)的過抽樣方法通過在少數(shù)類中加入隨機(jī)噪聲、干擾數(shù)據(jù)或通過一定規(guī)則產(chǎn)生新的合成樣本。
欠采樣 通過減少分類中多數(shù)類樣本的數(shù)量來實(shí)現(xiàn)樣本均衡,最直接的方法是隨機(jī)去掉一些多數(shù)類樣本來減小多數(shù)類的規(guī)模,缺點(diǎn)是會丟失多數(shù)類中的一些重要信息。
設(shè)置權(quán)重 對不同樣本數(shù)量的類別賦予不同的權(quán)重(通常會設(shè)置為與樣本量成反比)
集成方法 每次生成訓(xùn)練集時(shí)使用所有分類中的小樣本量,同時(shí)從分類中的大樣本量中隨機(jī)抽取數(shù)據(jù)來與小樣本量合并構(gòu)成訓(xùn)練集,這樣反復(fù)多次會得到很多訓(xùn)練集和訓(xùn)練模型。最后在應(yīng)用時(shí),使用組合方法(例如投票、加權(quán)投票等)產(chǎn)生分類預(yù)測結(jié)果。這種方法類似于隨機(jī)森林。缺點(diǎn)是,比較吃計(jì)算資源,費(fèi)時(shí)。
python代碼:
# 生成不平衡分類數(shù)據(jù)集from collections import Counterfrom sklearn.datasets import make_classificationX, y = make_classification(n_samples=3000, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=3, n_clusters_per_class=1, weights=[0.1, 0.05, 0.85], class_sep=0.8, random_state=2018)Counter(y)# Counter({2: 2532, 1: 163, 0: 305})# 使用RandomOverSampler從少數(shù)類的樣本中進(jìn)行隨機(jī)采樣來增加新的樣本使各個(gè)分類均衡from imblearn.over_sampling import RandomOverSampler ros = RandomOverSampler(random_state=0)X_resampled, y_resampled = ros.fit_sample(X, y)sorted(Counter(y_resampled).items())# [(0, 2532), (1, 2532), (2, 2532)]# SMOTE: 對于少數(shù)類樣本a, 隨機(jī)選擇一個(gè)最近鄰的樣本b, 然后從a與b的連線上隨機(jī)選取一個(gè)點(diǎn)c作為新的少數(shù)類樣本from imblearn.over_sampling import SMOTE X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y) sorted(Counter(y_resampled_smote).items())# [(0, 2532), (1, 2532), (2, 2532)]# ADASYN: 關(guān)注的是在那些基于K最近鄰分類器被錯(cuò)誤分類的原始樣本附近生成新的少數(shù)類樣本from imblearn.over_sampling import ADASYNX_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_sample(X, y) sorted(Counter(y_resampled_adasyn).items())# [(0, 2522), (1, 2520), (2, 2532)]# RandomUnderSampler函數(shù)是一種快速并十分簡單的方式來平衡各個(gè)類別的數(shù)據(jù): 隨機(jī)選取數(shù)據(jù)的子集.from imblearn.under_sampling import RandomUnderSamplerrus = RandomUnderSampler(random_state=0)X_resampled, y_resampled = rus.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 163), (1, 163), (2, 163)]# 在之前的SMOTE方法中, 當(dāng)由邊界的樣本與其他樣本進(jìn)行過采樣差值時(shí), 很容易生成一些噪音數(shù)據(jù). 因此, 在過采樣之后需要對樣本進(jìn)行清洗. # 這樣TomekLink 與 EditedNearestNeighbours方法就能實(shí)現(xiàn)上述的要求.from imblearn.combine import SMOTEENNsmote_enn = SMOTEENN(random_state=0)X_resampled, y_resampled = smote_enn.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 2111), (1, 2099), (2, 1893)]from imblearn.combine import SMOTETomeksmote_tomek = SMOTETomek(random_state=0)X_resampled, y_resampled = smote_tomek.fit_sample(X, y) sorted(Counter(y_resampled).items())# [(0, 2412), (1, 2414), (2, 2396)]# 使用SVM的權(quán)重調(diào)節(jié)處理不均衡樣本 權(quán)重為balanced 意味著權(quán)重為各分類數(shù)據(jù)量的反比from sklearn.svm import SVC svm_model = SVC(class_weight=’balanced’)svm_model.fit(X, y)# # EasyEnsemble 通過對原始的數(shù)據(jù)集進(jìn)行隨機(jī)下采樣實(shí)現(xiàn)對數(shù)據(jù)集進(jìn)行集成.# EasyEnsemble 有兩個(gè)很重要的參數(shù): (i) n_subsets 控制的是子集的個(gè)數(shù) and (ii) replacement 決定是有放回還是無放回的隨機(jī)采樣.from imblearn.ensemble import EasyEnsembleee = EasyEnsemble(random_state=0, n_subsets=10)X_resampled, y_resampled = ee.fit_sample(X, y)sorted(Counter(y_resampled[0]).items())# [(0, 163), (1, 163), (2, 163)]# BalanceCascade(級聯(lián)平衡)的方法通過使用分類器(estimator參數(shù))來確保那些被錯(cuò)分類的樣本在下一次進(jìn)行子集選取的時(shí)候也能被采樣到. 同樣, n_max_subset 參數(shù)控制子集的個(gè)數(shù), 以及可以通過設(shè)置bootstrap=True來使用bootstraping(自助法).from imblearn.ensemble import BalanceCascadefrom sklearn.linear_model import LogisticRegressionbc = BalanceCascade(random_state=0, estimator=LogisticRegression(random_state=0), n_max_subset=4)X_resampled, y_resampled = bc.fit_sample(X, y) sorted(Counter(y_resampled[0]).items())# [(0, 163), (1, 163), (2, 163)]# BalancedBaggingClassifier 允許在訓(xùn)練每個(gè)基學(xué)習(xí)器之前對每個(gè)子集進(jìn)行重抽樣. 簡而言之, 該方法結(jié)合了EasyEnsemble采樣器與分類器(如BaggingClassifier)的結(jié)果.from sklearn.tree import DecisionTreeClassifierfrom imblearn.ensemble import BalancedBaggingClassifierbbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(),ratio=’auto’,replacement=False,random_state=0)bbc.fit(X, y)
以上這篇python數(shù)據(jù)預(yù)處理 :樣本分布不均的解決(過采樣和欠采樣)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. 輕松學(xué)習(xí)XML教程2. xpath簡介_動力節(jié)點(diǎn)Java學(xué)院整理3. css代碼優(yōu)化的12個(gè)技巧4. jsp+servlet簡單實(shí)現(xiàn)上傳文件功能(保存目錄改進(jìn))5. jsp cookie+session實(shí)現(xiàn)簡易自動登錄6. msxml3.dll 錯(cuò)誤 800c0019 系統(tǒng)錯(cuò)誤:-2146697191解決方法7. jsp實(shí)現(xiàn)登錄驗(yàn)證的過濾器8. .NET SkiaSharp 生成二維碼驗(yàn)證碼及指定區(qū)域截取方法實(shí)現(xiàn)9. 解析原生JS getComputedStyle10. jsp EL表達(dá)式詳解
