广州竞远安全技术股份有限公司徐明阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州竞远安全技术股份有限公司申请的专利一种基于多模型分歧检测的数据清洗异常值处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121479142B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610023641.1,技术领域涉及:G06F18/10;该发明授权一种基于多模型分歧检测的数据清洗异常值处理方法是由徐明阳;陶佳航;袁旭;刘新闻;林殿魁设计研发完成,并于2026-01-09向国家知识产权局提交的专利申请。
本一种基于多模型分歧检测的数据清洗异常值处理方法在说明书摘要公布了:本发明公开了一种基于多模型分歧检测的数据清洗异常值处理方法,包括以下步骤:S1.数据划分与配置初始化;S2.训练欠拟合模型;S3.预测与一致性聚合;S4.人工复核与闭环;S5.审计与可复现。本发明可在不依赖重型人工复核的前提下,实现高精度、高稳健性且全程可审计的数据清洗问题。
本发明授权一种基于多模型分歧检测的数据清洗异常值处理方法在权利要求书中公布了:1.一种基于多模型分歧检测的数据清洗异常值处理方法,其特征在于:包括以下步骤: S1.数据划分与配置初始化:从一指定的只读配置文件中加载参数;根据参数中定义的划分方式与数量,将待清洗的数据集划分为多个不同的训练子集,并初始化一个统一配置对象; S2.训练欠拟合模型:在步骤S1得到的每个训练子集上训练N个欠拟合模型,通过限制模型学习能力来增强模型对异常样本的分歧敏感性; S3.预测与一致性聚合:使用步骤S2训练好的N个欠拟合模型对数据集中的每条样本进行预测,汇总N个欠拟合模型的预测结果,计算模型间的一致性指标,并根据预设的判定条件标记分歧样本,输出分歧样本清单; 所述步骤S3具体包括: S31.预测汇总:对于数据集中的每条样本,收集其在步骤S2中训练的N个欠拟合模型的预测类别标签及对应的预测置信度; S32.一致性计算:基于N个预测类别标签及对应的预测置信度,计算模型间的一致性指标;所述一致性指标包括多数投票比例,并至少包括置信度方差与信息熵中的一种作为辅助指标;且各指标计算公式如下: 多数投票比例,计算公式如下: 其中,为预测为主要类别的模型数量; 置信度方差,计算公式如下: 其中,为第个模型对目标类别的预测置信度,为平均预测置信度; 信息熵,计算公式如下: 其中,为总类别数;为N个模型对第个类别的平均预测概率; S33.分歧样本标记与导出:根据步骤S32选用的辅助指标,执行以下对应的判定逻辑,满足任一条件即标记为分歧样本: 当选用置信度方差时:若样本的多数投票比例小于分歧阈值,或在多数投票比例不小于分歧阈值的情况下其置信度方差大于方差阈值,或其预测结果与原始标签不一致且平均置信度不小于置信度阈值,则标记为分歧样本; 当选用信息熵时:若样本的多数投票比例小于分歧阈值,或在多数投票比例不小于分歧阈值的情况下其信息熵大于熵阈值,或其预测结果与原始标签不一致且平均置信度不小于置信度阈值,则标记为分歧样本; 最终汇总所有标记样本输出分歧样本清单; S4.人工复核与闭环:对标记为分歧样本的数据进行人工复核,根据复核结果更新原始数据集,计算并记录本次迭代的分歧率与修正量;若未达到迭代终止条件,则基于更新后的数据集重新划分训练子集,并依次重新执行步骤S2与步骤S3进行下一轮迭代清洗,直至达到迭代终止条件; S5.审计与可复现:将本次清洗任务所使用的审计元数据记录在结构化审计日志中,确保跨环境可复现与全流程可审计。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州竞远安全技术股份有限公司,其通讯地址为:510663 广东省广州市高新技术产业开发区科学城科珠路201号G320;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励