数据挖掘实战报告范文(共3篇)

时间:2025-07-06 17:51:30 admin 今日美文

数据挖掘实战报告范文 第1篇

缺失值如下图结果所示,统计的无意义零值(缺失值)wei 13个,在总数据集569条中为少数。

由于缺失值仅有13条,因此删除对应缺失值所在行不会大幅度影响结果聚类,因此在本次实验中采取删除缺失值所在行的缺失值处理方法

标记缺失值后删除缺失值所对应行。

用查看缺失值的方式查看

查看异常值

尝试着查看数据集data_new的异常值,由于总属性种类过多,对分析结果造成较大影响,因此还是将数据依照三个细胞分为三个子数据集查看异常值

Data1异常值查看

异常值结果如下图所示

Data2异常值查看

异常值结果如下图所示

Data3异常值查看

异常值结果如下图所示

由特征值相互关系中分析出:半径、周长、面积删去其中两列,不会影响数据集聚类结果,将凹度凹点以及紧密度删去其中两项,在一定程度上也不会影响数据集聚类结果,因此在处理相关值时删除半径、面积,凹点、紧密度这四个特征值

结果如下图所示

将处理好的data_new数据依次分给子数据集

聚类时时,由于ID与判断是否得病两列会影响聚类,因此把两列特征值删去

数据挖掘实战报告范文 第2篇

数据集评估

肘部法则

人工选择k值存在偶然性以及误差,因此查阅资料可知,通过肘部发展迭代K值最终在快速下降趋于平缓下降的转折点选择出聚类的最好情况。

由图可以看出在2,3类都有可能成为聚类情况,因此再对2,3类用系数评估

当k=2时聚类

显示中心点

当k=3时

查看中心点

聚类效果好坏的判断有三种方式,本实验选用Calinski-Harabasz(CH)方式判定聚类效果。

K=2

K=3

输出聚类结果

c)聚类可视化

可视化三维图时data_new1特征值数据的横向分布不利于绘图,因此将分散的属性值结合为一个,因此转换为data_new2数据做聚类可视化分析。

 

 

 

直接使用data_new2数据框进行k-中点聚类

下载pyclust库,使用pyclust库下的k-Medoids板块

聚类结果如下,

分别为二类、三类、四类、五类的效果,由结果不难看出,二类最为合适,彻底聚类成功,三类效果次于两类,有略微的交杂。四类五类结果明显不如前者。

先进行sklearn的层次聚类

聚类结果如下

b)聚类可视化

结果如下

明显聚类为三类更好的描述数据集的聚类情况。

下载Minisom库

开始聚类

查看聚类结果

热力图:

散点图

综上分为三类

合并最终聚类结果

数据挖掘实战报告范文 第3篇

在各种聚类方式中,k-medoids需要进行大量的机器运算,结果出来的也十分缓慢,在实际研究中不建议采用,尤其当实验数据较大时,严重耽误时间导致效率过低,在运行集中聚类方式时,更建议采用k-means算法,该算法较为完善且在网络上有大量参考文献与资料,可视化也是多种多样的,其次就是SOM算法,运行速度较快,结果较清晰明显。

层次聚类分析与k-medoids在实验中的运行速度以及运行效果并没有另外两种好。