2022中国大数据挑战赛A题完整原创成品来啦!
admin
2023-09-13 20:02:02
0

大家好呀,从昨天开赛后一直肝,到现在终于完成了大数据挑战赛A题,全文39页:

可能是刚做完研赛的缘故,这次大数据挑战赛做起来总体还是很顺的,但本题还是有坑,我之前是想要用svm去做的,也确实做完了,判别的精度是96%,感觉没问题,我就按照这个写完了,结果最后复查的时候发现,由于题目里面的故障件本来就很少,那即便故障件全部识别为0,其实精度依然在90%以上,所以本题如果最终精度只要低于98%,都是不行的,基本相当于没预测。没办法,最后只好改换决策树分类,做起来倒是非常顺畅,二三问的预测精度都在99%以上,一个99.2一个99.3.

OK废话不多说,说一下究竟怎么做:

这是我的

整体预览:



这是

我的摘要:



第一问:



就是让咱们数据预处理嘛,看看题目给的数据:



机器编号以及规范代码9000个各不相同,很显然跟是否发生故障没关系,都不能作为影响因素。

所以剔除。

其他几个因素呢,质量等级和故障类别都做一下标签化处理吧:





然后得到最终表格:



ok第一问完事。

第二问:



用题目给的训练集训练出来个鉴别模型嘛,那就做呗,最开始我用的支持向量机,最后也做完了,准确度在90%以上:



96%以上,很高吧?

顺带提一嘴,这里我用到的这几个:



就是题目要求的评估方法,具体是什么含义怎么计算,我论文里都有详细说明:



我也就按照这个写完了论文,结果最后发现最终得出的结果表里:



所有发生故障的预测的都是错的!

这会儿我才想明白,因为题目给的故障件本来就很少啊!所以即便所有的故障件都识别为非故障,照样准确度还是在95%以上!:



所以大家一定要注意!准确度98%以下基本就相当于没预测!!!

只能改换其他分类方式,我最后用了决策树:



做起来还是很顺的,准确度99.3%:



得到最终结果表就完事:



第二问完事。

第三问:



这下就简单了,无脑决策树就完事了:



99.2%,完事。

第四问:



都训练好模型了,直接分别用两次就完事了:



得到最终结果表:



完事完事。

第五问:



要探究主要成因,直接主成分分析法就完事:





OK就分享到这里吧。

本次中国高校大数据挑战赛我自己39页的完整成品,以及所有我用到的数据表格,最终得到的结果表格都有,

看这里获取详情:

相关内容