数据挖掘实战报告范文(共3篇)

时间：2025-07-06 17:51:30 admin 今日美文

数据挖掘实战报告范文第1篇

缺失值如下图结果所示，统计的无意义零值（缺失值）wei 13个，在总数据集569条中为少数。

由于缺失值仅有13条，因此删除对应缺失值所在行不会大幅度影响结果聚类，因此在本次实验中采取删除缺失值所在行的缺失值处理方法

标记缺失值后删除缺失值所对应行。

用查看缺失值的方式查看

查看异常值

尝试着查看数据集data_new的异常值，由于总属性种类过多，对分析结果造成较大影响，因此还是将数据依照三个细胞分为三个子数据集查看异常值

Data1异常值查看

异常值结果如下图所示

Data2异常值查看

异常值结果如下图所示

Data3异常值查看

异常值结果如下图所示

由特征值相互关系中分析出：半径、周长、面积删去其中两列，不会影响数据集聚类结果，将凹度凹点以及紧密度删去其中两项，在一定程度上也不会影响数据集聚类结果，因此在处理相关值时删除半径、面积，凹点、紧密度这四个特征值

结果如下图所示

将处理好的data_new数据依次分给子数据集

聚类时时，由于ID与判断是否得病两列会影响聚类，因此把两列特征值删去

数据挖掘实战报告范文第2篇

数据集评估

肘部法则

人工选择k值存在偶然性以及误差，因此查阅资料可知，通过肘部发展迭代K值最终在快速下降趋于平缓下降的转折点选择出聚类的最好情况。

由图可以看出在2，3类都有可能成为聚类情况，因此再对2，3类用系数评估

当k=2时聚类

显示中心点

当k=3时

查看中心点

聚类效果好坏的判断有三种方式，本实验选用Calinski-Harabasz(CH)方式判定聚类效果。

K=2

K=3

输出聚类结果

c)聚类可视化

可视化三维图时data_new1特征值数据的横向分布不利于绘图，因此将分散的属性值结合为一个，因此转换为data_new2数据做聚类可视化分析。

直接使用data_new2数据框进行k-中点聚类

下载pyclust库，使用pyclust库下的k-Medoids板块

聚类结果如下，

分别为二类、三类、四类、五类的效果，由结果不难看出，二类最为合适，彻底聚类成功，三类效果次于两类，有略微的交杂。四类五类结果明显不如前者。

先进行sklearn的层次聚类

聚类结果如下

b)聚类可视化

结果如下

明显聚类为三类更好的描述数据集的聚类情况。

下载Minisom库

开始聚类

查看聚类结果

热力图：

散点图

综上分为三类

合并最终聚类结果

数据挖掘实战报告范文第3篇

在各种聚类方式中，k-medoids需要进行大量的机器运算，结果出来的也十分缓慢，在实际研究中不建议采用，尤其当实验数据较大时，严重耽误时间导致效率过低，在运行集中聚类方式时，更建议采用k-means算法，该算法较为完善且在网络上有大量参考文献与资料，可视化也是多种多样的，其次就是SOM算法，运行速度较快，结果较清晰明显。

层次聚类分析与k-medoids在实验中的运行速度以及运行效果并没有另外两种好。

数据挖掘实战报告范文(共3篇)

数据挖掘实战报告范文 第1篇

数据挖掘实战报告范文 第2篇

数据挖掘实战报告范文 第3篇

数据挖掘实战报告范文第1篇

数据挖掘实战报告范文第2篇

数据挖掘实战报告范文第3篇