数据挖掘实战报告范文 第1篇
缺失值如下图结果所示,统计的无意义零值(缺失值)wei 13个,在总数据集569条中为少数。
由于缺失值仅有13条,因此删除对应缺失值所在行不会大幅度影响结果聚类,因此在本次实验中采取删除缺失值所在行的缺失值处理方法
标记缺失值后删除缺失值所对应行。
用查看缺失值的方式查看
查看异常值
尝试着查看数据集data_new的异常值,由于总属性种类过多,对分析结果造成较大影响,因此还是将数据依照三个细胞分为三个子数据集查看异常值
Data1异常值查看
异常值结果如下图所示
Data2异常值查看
异常值结果如下图所示
Data3异常值查看
异常值结果如下图所示
由特征值相互关系中分析出:半径、周长、面积删去其中两列,不会影响数据集聚类结果,将凹度凹点以及紧密度删去其中两项,在一定程度上也不会影响数据集聚类结果,因此在处理相关值时删除半径、面积,凹点、紧密度这四个特征值
结果如下图所示
将处理好的data_new数据依次分给子数据集
聚类时时,由于ID与判断是否得病两列会影响聚类,因此把两列特征值删去
数据挖掘实战报告范文 第2篇
数据集评估
肘部法则
人工选择k值存在偶然性以及误差,因此查阅资料可知,通过肘部发展迭代K值最终在快速下降趋于平缓下降的转折点选择出聚类的最好情况。
由图可以看出在2,3类都有可能成为聚类情况,因此再对2,3类用系数评估
当k=2时聚类
显示中心点
当k=3时
查看中心点
聚类效果好坏的判断有三种方式,本实验选用Calinski-Harabasz(CH)方式判定聚类效果。
K=2
K=3
输出聚类结果
c)聚类可视化
可视化三维图时data_new1特征值数据的横向分布不利于绘图,因此将分散的属性值结合为一个,因此转换为data_new2数据做聚类可视化分析。
直接使用data_new2数据框进行k-中点聚类
下载pyclust库,使用pyclust库下的k-Medoids板块
聚类结果如下,
分别为二类、三类、四类、五类的效果,由结果不难看出,二类最为合适,彻底聚类成功,三类效果次于两类,有略微的交杂。四类五类结果明显不如前者。
先进行sklearn的层次聚类
聚类结果如下
b)聚类可视化
结果如下
明显聚类为三类更好的描述数据集的聚类情况。
下载Minisom库
开始聚类
查看聚类结果
热力图:
散点图
综上分为三类
合并最终聚类结果
数据挖掘实战报告范文 第3篇
在各种聚类方式中,k-medoids需要进行大量的机器运算,结果出来的也十分缓慢,在实际研究中不建议采用,尤其当实验数据较大时,严重耽误时间导致效率过低,在运行集中聚类方式时,更建议采用k-means算法,该算法较为完善且在网络上有大量参考文献与资料,可视化也是多种多样的,其次就是SOM算法,运行速度较快,结果较清晰明显。
层次聚类分析与k-medoids在实验中的运行速度以及运行效果并没有另外两种好。