数据挖掘典型案例分析报告(优选4篇)

时间:2025-07-08 02:51:41 admin 今日美文

数据挖掘典型案例分析报告 第1篇

第一步还是先导入数据分析中需要用到的模块

再将数据集下载至jupyter 操作的Titanic项目文件夹下,用python打开训练集与测试集数据,为了方便数据清洗步骤操作,现将两份数据归为统一列表中,并输出两个数据集的结构信息,字段信息,粗略浏览数据信息。

test数据集的数据结构为:(418,11)。有418条记录,包含11个数据字段。

test集的字段信息

test数据集预览

训练集的数据结构为:(891,12),891条数据记录,12个数据字段,其中相对于test多出的字段为Survival也就是生还状况,需要预测的数据。

train集数据信息

train集数据预览

首先需要划分出数据类型

根据数据内容信息,进行数据理解

最后对比两个数据集中的缺失值信息。

最后说明下提交文件的要求,提交文件预览结果只有两列,其中第一列为PessengerId,第二列为Survival信息,1或0,int64类型数据。

数据挖掘典型案例分析报告 第2篇

对比各参数我们选择SVM模型作为最终模型对测试集数据进行预测。

最后将模型估计生存结果,最后将结果输出到csv文件并提交到Kaggle平台。

数据分析总结

开篇有提到Titanic是我做过的第一份数据分析项目,第一次提交的结果也如上图,准确率仅有,第一次的分析操作中,只是用简单的LR模型进行拟合,并且数据清洗过程也存在很多不合理的地方。这次距离上次分析经过了2个月的时间,期间我丰富了自己机器算法知识(用到了更多的算法模型),并自主学习了,模型估计过程中的数据集挑选(交叉验证)、参数优化(网格搜索)的相关操作。这次准确率虽然只上涨到,但kaggle平台的项目排名却从89%到了22%,可见预测模型的优化是高投入低产出的过程,但在工作业务中,对模型的优化调整又是必不可少。因此,数据分析学习需要我们投入大量的时间精力去完善自己的分析思路(数据理解、特征筛选等)与算法操作(理论背景、python操作)。

在此还是老规矩,总结一下本次案例的不足与需要进一步学习的方面:

数据挖掘典型案例分析报告 第3篇

train集数据分布

test集数据展示

异常值主要出现在连续型特征中,

Age箱型图

图中看出,Age数据存在很多在上界与下界之外的数据记录,但这些记录并不违反常识,年龄都在0岁以上和85岁以下,都是在正常的年龄分为内。

train Age数据小于下界的记录

test集Age数据小于下界的记录

对比数据记录,不存在异常值。

除去Age外,还有Fare特征需要排除异常值,Fare在之前的直方图中存在很多的离群值,因此也同样画出箱型图,并查看异常值。

Fare 箱型图

Fare散点分布图

图看出Fare大多数数据在0-50,少部分在150左右,更少的在250,还有4个在500+,从横向看离群点的值都在较近的分布区间,另外根据观察数据发现Fare较高的人都是预订了多个房间,因此尽管有大量数据超过上界Fare的取值扔是合理的,(就像天价演唱会门票,如果也用箱型图,相信也是类似的分布状态。)

这部分通过图表与查询验证 数据中不存在异常值。

数据挖掘典型案例分析报告 第4篇

我认为是否有父母子女同乘是会导致过拟合的特征数据,。例如,有年迈的父母与有壮年的子女,同样是计数1但对模型的影响结果,方向是相反的,而且这种作用相反的例子不止一种,因为父母可能有年迈的可能有中年的有青年的,子女有婴儿或青壮年,因此这类数据如果用于分析,其对结果的影响,取决于不同作用样本量的期望值,这类数据或许与结果有相关关系,但是在没有较好的控制变量的情况下是不存在因果关系的。因此,除非样本集过于特殊,否则两项放入模型中会导致模型过拟合。兄弟姐妹同行人数,我认为也是这种情况。因此先不将两个特征放入模型。