2022中国大数据挑战赛A题完整原创成品来啦！ _营销

2022中国大数据挑战赛A题完整原创成品来啦！

admin

2023-09-13 20:02:02

0次

大家好呀，从昨天开赛后一直肝，到现在终于完成了大数据挑战赛A题，全文39页：

可能是刚做完研赛的缘故，这次大数据挑战赛做起来总体还是很顺的，但本题还是有坑，我之前是想要用svm去做的，也确实做完了，判别的精度是96％，感觉没问题，我就按照这个写完了，结果最后复查的时候发现，由于题目里面的故障件本来就很少，那即便故障件全部识别为0，其实精度依然在90％以上，所以本题如果最终精度只要低于98%，都是不行的，基本相当于没预测。没办法，最后只好改换决策树分类，做起来倒是非常顺畅，二三问的预测精度都在99%以上，一个99.2一个99.3.

OK废话不多说，说一下究竟怎么做：

这是我的

整体预览：

这是

我的摘要：

第一问：

就是让咱们数据预处理嘛，看看题目给的数据：

机器编号以及规范代码9000个各不相同，很显然跟是否发生故障没关系，都不能作为影响因素。

所以剔除。

其他几个因素呢，质量等级和故障类别都做一下标签化处理吧：

然后得到最终表格：

ok第一问完事。

第二问：

用题目给的训练集训练出来个鉴别模型嘛，那就做呗，最开始我用的支持向量机，最后也做完了，准确度在90%以上：

96%以上，很高吧？

顺带提一嘴，这里我用到的这几个：

就是题目要求的评估方法，具体是什么含义怎么计算，我论文里都有详细说明：

我也就按照这个写完了论文，结果最后发现最终得出的结果表里：

所有发生故障的预测的都是错的！

这会儿我才想明白，因为题目给的故障件本来就很少啊！所以即便所有的故障件都识别为非故障，照样准确度还是在95%以上！：

所以大家一定要注意！准确度98%以下基本就相当于没预测！！！

只能改换其他分类方式，我最后用了决策树：

做起来还是很顺的，准确度99.3%：

得到最终结果表就完事：

第二问完事。

第三问：

这下就简单了，无脑决策树就完事了：

99.2%，完事。

第四问：

都训练好模型了，直接分别用两次就完事了：

得到最终结果表：

完事完事。

第五问：

要探究主要成因，直接主成分分析法就完事：

OK就分享到这里吧。

本次中国高校大数据挑战赛我自己39页的完整成品，以及所有我用到的数据表格，最终得到的结果表格都有，

看这里获取详情：

故障5准确度5数据5挑战赛5题目

上一篇：小程序+视频号（营销+流量）

下一篇：大数据的时代