机器学习Sklearn——红酒分类案例详解决策树模型参数

 

目录

1 分类树

1.1 红酒分类案例

1.1.1 导入包

1.1.2 观察、分割数据

1.1.3 三段论

2 参数介绍

2.1 重要参数

2.2 控制随机选项参数

2.3 剪枝参数

3 批量测试合适参数并画图

4 graphviz如何将dot文件转为png,pdf的方法

我们这里使用的是python库的sklearn机器学习库,这里面涵盖了几乎所有主流机器学习算法。之前的blog理论较多,实际案例做出来就行。参数讲解得不是很细,如今专门讲解sklearn,更细节些。

1 分类

概念之前已经讲过了,在jupyter lab这个开发环境进行实验机器学习基础——分类算法之决策树、随机森林、Titanic乘客生存分类_chelsea_tongtong的博客-CSDN博客

我们直接上案例吧。

1.1 红酒分类案例

1.1.1 导入包

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

1.1.2 观察、分割数据

  • 数据是字典,我们用pd.concat将其转换成列表
  • 178行,13列,说明特征值有13个
  • 目标值是有3个,说明分成3类
    array(['class_0', 'class_1', 'class_2'], dtype='<U7')
wine=load_wine()
wine
import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
#CONCAT 函数 是用来将不同单元格里的文本等内容组合起来,但不会出现间隔符号的函数。
wine.feature_names
wine.targret_names

1.1.3 三段论

  • 三段论就是分类器建立、拟合模型、评估模型准确率
  • 建立树之前要下载graphviz这个模块
  • tree.export_graphviz()函数里面的参数filled是颜色,rouded是框框是圆还是方
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,max_depth=3
                                 #,min_samples_leaf=11
                                 #,min_samples_split=5)
clf = clf.fit(Xtrain,Ytrain)
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
import graphviz
dot_data=tree.export_graphviz(clf
                              ,feature_names=feature_name
                              ,class_names=["琴酒","雪莉","贝尔摩德"]
                              ,filled=True
                              ,rounded=True)
graph=graphviz.source(dot_data)
graph
score = clf.score(Xtest,Ytest)
score
  • *zip(,)这一步是将每个特征和特征的贡献率以数据的形式结合起来 
[*zip(feature_name,clf.feature_importances_)]
[('酒精', 0.0),
 ('苹果酸', 0.0),
 ('灰', 0.0),
 ('灰的碱性', 0.0),
 ('镁', 0.0),
 ('总酚', 0.0),
 ('类黄酮', 0.5132554807387111),
 ('非黄烷类酚类', 0.0),
 ('花青素', 0.023197838342593743),
 ('颜色强度', 0.31032151681648745),
 ('色调', 0.016620488684869157),
 ('od280/od315稀释葡萄酒', 0.0),
 ('脯氨酸', 0.1366046754173385)]

2 参数介绍

tree.DecisionTreeClassifier()其中这个就是建立模型的方法

2.1 重要参数

为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
1)输入”entropy“,使用信息熵(Entropy)
2)输入”gini“,使用基尼系数(Gini Impurity
平常我们如何选择呢
1:通常就使用基尼系数
2:数据维度很大,噪音很大时使用基尼系数
3:维度低,数据比较清晰的时候,信息熵和基尼系数没区别
4:当决策树的拟合程度不够的时候,使用信息熵
简单粗暴就是,两个都试试,不好就换另外一个

2.2 控制随机选项参数

如果没有随机参数,准确率在每次运行的时候都会变化,可能变化的幅度比较大,影响模型评估,所以我们要控制随机参数。

  • random_state用来设置分枝中的随机模式的参数,认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
  • splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。

2.3 剪枝参数

当训练集准确率很高,但测试集准确率很低的时候我们需要剪枝,平常使用max_depth就可以,但是又新增加了两个参数,具体的数据我们需要通过计算准确率来不停实验。

  • 剪枝参数max_depth。限制树的最大深度,超过设定深度的树枝全部剪掉这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。
  • min_samples_leaf限定。一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包min_samples_leaf个样本的方向去发生一般max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。
  • min_samples_split限定。一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,max_depth=3
                                 #,min_samples_leaf=11
                                 #,min_samples_split=5)
clf = clf.fit(Xtrain,Ytrain)
#我们的树对测试集的拟合程度怎么样?
score = clf.score(Xtest,Ytest)
score

3 批量测试合适参数并画图

import matplotlib.pyplot as plt
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1
                                     ,criterion="entropy"
                                     ,random_state=30
                                     ,splitter="random"
                                     )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

4 graphviz如何将dot文件转为png,pdf的方法

第一步:运行graphviz那个代码,搞到D盘里面有个iris文件夹里

第二步:通过cmd切换到你对应的运行目录下,然后执行命令

 

dot -Tpng dtc.dot -o dtc.png

第三步:生成的png就在对应的目录下

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340