2022大数据挑战赛思路分析!
admin
2023-09-13 07:46:39
0

赛题A (AB思路分享见群189066621)工业机械设备故障预测

1、赛题背景

制造业是国民经济的主体,近十年来,嫦娥探月、祝融探火、北斗组网,大批重大标志性创新成果引领中国制造业不断禁上新高度。作为制造业的核心,机械设备在工业生产的各个环节都扮演着不可或缺的重要角色。但是,在机械设备运转过程中会产生不可避免的磨损、老化等问题,随着损耗的增加,会导致各种故障的发生,影响生产质量和效率。
实际生产中,若能根据机械设备的使用情況,提前预测潜在的故障风险,精准地进行检修维护,维持机械设备稳定运转,不但能够确保整体工业环境运行具备稳定性,也能切实帮助企业提高经济效益。
某企业机械设备的使用情況及故障发生情況数据见 train data. xlsx,用于设备故障预测及故障主要相关因素的探究。数据包含9000行,每一行数据记录了机械设备对应的运转及故障发生情况记录。因机械设备在使用环境以及工作强度上存在较大差异,其所需的维护频率和检修问题也通常有所不同。
数据提供了实际生产中常见的机械设备使用环境和工作强度等指标,包含不同设备所处厂房的室温(单位为开尔文K),其工作时的机器温度(单位为开尔文K)、转速(单位为每分钟的旋转次数rpm)、扭矩(单位为牛米Nm)及机器运转时长(单位为分钟min)。除此之外,还提供了机械设备的统一规范代码、质量等级及在该企业中的机器编号,其中质量等级分为高、中、低(HML)三个等级。对于机械设备的故障情况,数据提供了两列数据描述—“是否发生故障”和“具体故障类别”。其中“是否发生故障”取值为01,0代表设备正常运转,1代表设备发生故障;“具体故障类别包含6种情况,分别是 NORMAL、TWF、HDF、PWF、OSF、RNF,其中, NORMAL代表设别正常运转(与是否发生故障”为0相对应),其余代码代表的是发生故障的类别,包含5种,其中TWF代表磨损故障,HDF代表散热故障,PWF代表电力故障,OSF代表过载故障,RNF代表其他故障。

2、问题与思路分析

基于赛题提供的数据,自主查阅资料,选择合适的方法完成如下任务:

任务 1:观察数据“train data.xlsx”,自主进行数据预处理,选择合适的指标用于机械设备故障的预测并说明原因。




train data.xlsx

问题可以拆解为2个小问,第一问题是数据预处理。包括缺失值、异常值处理,数据结构查看,描述性分析等等。这里train data.xlsx数据结构比较少,可以采用逐列与两两交叉进行分析,
第二个问题是选择合适的指标用于机械设备故障的预测并说明原因。其主要是通过一些差异性分析或者相关性分析算法,例如卡方检验、方差分析等等,挖掘【具体故障类别】与其他变量的相关情况。如分析具体故障类别与使用时长(min)是否有差异性关系。

任务 2:设计开发模型用于判别机械设备是否发生故障,自主选取评价方式和评价指标评估模型表现。

很明显这是一个分类问题,使用可解释机器学习可以很好解决这个问题,评价指标可以采用F1,召回、精准率等等,这里重要拿分点是:
1、模型调参,2,模型流程


相关内容