文章詳情頁

詳解Python 關聯規則分析

瀏覽：14日期：2022-06-24 14:41:31

1. 關聯規則

大家可能聽說過用于宣傳數據挖掘的一個案例:啤酒和尿布；據說是沃爾瑪超市在分析顧客的購買記錄時，發現許多客戶購買啤酒的同時也會購買嬰兒尿布，于是超市調整了啤酒和尿布的貨架擺放，讓這兩個品類擺放在一起；結果這兩個品類的銷量都有明顯的增長；分析原因是很多剛生小孩的男士在購買的啤酒時，會順手帶一些嬰幼兒用品。

不論這個案例是否是真實的，案例中分析顧客購買記錄的方式就是關聯規則分析法Association Rules。

關聯規則分析也被稱為購物籃分析，用于分析數據集各項之間的關聯關系。

1.1 基本概念項集：item的集合，如集合{牛奶、麥片、糖}是一個3項集，可以認為是購買記錄里物品的集合。頻繁項集：顧名思義就是頻繁出現的item項的集合。如何定義頻繁呢？用比例來判定，關聯規則中采用支持度和置信度兩個概念來計算比例值支持度：共同出現的項在整體項中的比例。以購買記錄為例子，購買記錄100條，如果商品A和B同時出現50條購買記錄（即同時購買A和B的記錄有50），那邊A和B這個2項集的支持度為50%

詳解Python 關聯規則分析

置信度：購買A后再購買B的條件概率，根據貝葉斯公式，可如下表示：

詳解Python 關聯規則分析

提升度：為了判斷產生規則的實際價值，即使用規則后商品出現的次數是否高于商品單獨出現的評率，提升度和衡量購買X對購買Y的概率的提升作用。如下公式可見，如果X和Y相互獨立那么提升度為1，提升度越大，說明X->Y的關聯性越強

詳解Python 關聯規則分析

1.2 關聯規則Apriori算法

關聯規則方法的步驟如下：

發現頻繁項集找出關聯規則

Apriori算法是經典的關聯規則算法。Apriori算法的目標是找到最大的K項頻繁集。Apriori算法從尋找1項集開始，通過最小支持度閾值進行剪枝，依次尋找2項集，3項集直到沒有更過項集為止。

下面是一個案例圖解：

詳解Python 關聯規則分析

圖中有4個記錄，記錄項有1，2，3，4，5若干首先先找出1項集對應的支持度（C1），可以看出4的支持度低于最小支持閾值，先剪掉（L1）。從1項集生成2項集，并計算支持度（C2），可以看出（1，5）（1，2）支持度低于最小支持閾值，先剪掉（L2）從2項集生成3項集，（1，2，3）（1，2，5）（2，3，5）只有（2，3，5）滿足要求沒有更多的項集了，就定制迭代 2. mlxtend實戰關聯規則

關聯規則目前在scikit-learn中并沒有實現。這里介紹另一個python庫mlxtend。

2.1 安裝

pip install mlxtend2.2 簡單的例子

來看下數據集：

import pandas as pditem_list = [[’牛奶’,’面包’], [’面包’,’尿布’,’啤酒’,’土豆’], [’牛奶’,’尿布’,’啤酒’,’可樂’], [’面包’,’牛奶’,’尿布’,’啤酒’], [’面包’,’牛奶’,’尿布’,’可樂’]]item_df = pd.DataFrame(item_list)

數據格式處理，傳入模型的數據需要滿足bool值的格式

from mlxtend.preprocessing import TransactionEncodete = TransactionEncoder()df_tf = te.fit_transform(item_list)df = pd.DataFrame(df_tf,columns=te.columns_)

詳解Python 關聯規則分析

計算頻繁項集

from mlxtend.frequent_patterns import apriori# use_colnames=True表示使用元素名字，默認的False使用列名代表元素, 設置最小支持度min_supportfrequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)frequent_itemsets.sort_values(by=’support’, ascending=False, inplace=True)# 選擇2頻繁項集print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])

詳解Python 關聯規則分析

計算關聯規則

from mlxtend.frequent_patterns import association_rules# metric可以有很多的度量選項，返回的表列名都可以作為參數association_rule = association_rules(frequent_itemsets,metric=’confidence’,min_threshold=0.9)#關聯規則可以提升度排序association_rule.sort_values(by=’lift’,ascending=False,inplace=True) association_rule# 規則是：antecedents->consequents

詳解Python 關聯規則分析

選擇出來關聯規則之后，根據提升度排序后，可能最高提升度的規則是在我們常識范圍內，那這個規則的價值就不高。所以我們要在產生的規則中根據業務特點進行篩選，像開篇提到（啤酒->尿布）完全不同的品類之間的關聯。

筆者最近用關聯規則分析用戶的體檢報告記錄，也得出了關于各個病癥的有意義的關聯，如并發癥，不同病癥相互影響等。

3. 總結

本分介紹關聯規則的基本概念和經典算法Apriori，以及python的實現庫mlxtend使用。

總結如下：

關聯規則用于分析數據集各項之間的關聯關系，想一想啤酒和尿布的故事三個重要概念：支持度，置信度和提升度 Apriori通過迭代先找1項集，用支持度過濾項集，逐步找出所有k項集用置信度或提升度來選擇滿足的要求的規則 mlxtend對數據要求轉換成bool值才可用

以上就是詳解Python 關聯規則分析的詳細內容，更多關于Python 關聯規則分析的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python用pyecharts實現地圖數據可視化下一條：Python-re中search()函數的用法詳解(查找ip)

相關文章：

1. jsp網頁實現貪吃蛇小游戲2. ASP.NET MVC遍歷驗證ModelState的錯誤信息3. jsp實現textarea中的文字保存換行空格存到數據庫的方法4. ASP 信息提示函數并作返回或者轉向5. ASP中if語句、select 、while循環的使用方法6. asp中response.write("中文")或者js中文亂碼問題7. 將properties文件的配置設置為整個Web應用的全局變量實現方法8. PHP設計模式中工廠模式深入詳解9. 刪除docker里建立容器的操作方法10. asp(vbs)Rs.Open和Conn.Execute的詳解和區別及&H0001的說明

排行榜

					
					淺談Python中re.match()和re.search()的使用及區別
刪除docker里建立容器的操作方法
django模型動態修改參數,增加 filter 字段的方式
IntelliJ IDEA創建web項目的方法
IntelliJ IDEA設置編碼格式的方法
在Android中使用WebSocket實現消息通信的方法詳解
如何使用IDEA新建一個普通的Javaweb項目
python GUI框架pyqt5 對圖片進行流式布局的方法（瀑布流flowlayout）
IDEA怎么切換Git分支的實現方法
IDEA 重新導入依賴maven 命令 reimport的方法
asp中response.write("中文")或者js中文亂碼問題