重庆市建设信息中心谢厚礼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆市建设信息中心申请的专利一种基于大模型的数据质量检测与管理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121833692B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610276207.4,技术领域涉及:G06F16/215;该发明授权一种基于大模型的数据质量检测与管理方法是由谢厚礼;陈轩;王春乐;刘川;张清虹;汪川东;金涛;向姝璠;王熠;何林枘;张顺;董奇鑫;杨呈祥;刘东博;黎悠悠;谭希松;张英豪;张妮妮;胡容;胡俊豪;李华;文鑫;黄龙航;颜鲁鹏;王青郁;任定君;马蓝娥;杜子韩;杨川;郑荐;成宇珊设计研发完成,并于2026-03-09向国家知识产权局提交的专利申请。
本一种基于大模型的数据质量检测与管理方法在说明书摘要公布了:本发明提供一种基于大模型的数据质量检测与管理方法,涉及电数字数据处理领域,包括:步骤S1、数据预处理:先采用大模型对输入的原始数据进行解构与模态标签化,再通过业务知识图谱驱动实体链接与语义增强,最后实现跨模态统一语义表征编码;步骤S2、特征提取:包括语义规则挖掘与特征模式提取、规则自动生成与优先级排序、规则与数据特征的动态绑定;步骤S3、数据质量检测:先进行多模态数据质量特征的联合编码,再进行上下文感知的质量异常检测;步骤S4、根因分析与修复。该方法能够解决现有数据质量检测方法规则依赖性强、通用性不足、根因分析不精准、可解释性差等问题。
本发明授权一种基于大模型的数据质量检测与管理方法在权利要求书中公布了:1.一种基于大模型的数据质量检测与管理方法,其特征在于:包括: 步骤S1、数据预处理:先采用大模型对输入的原始数据进行解构与模态标签化,具体为: 针对结构化数据:提取字段名、字段类型、字段值、表间关联键; 针对半结构化数据:解析层级结构、提取节点语义与属性; 针对非结构化数据:对文本提取关键词、语义角色,对图像提取内容语义; 最终输出带模态标签和基础语义的解构数据集合D: ; 式中:S表示结构化数据,SS表示半结构化数据,U表示非结构化数据; 再通过业务知识图谱驱动实体链接与语义增强,具体为: 首先通过大模型构建业务知识图谱B-KG; 再将解构数据集合中的实体与业务知识图谱B-KG中的实体进行链接,具体为:从解构结果中,提取待链接的实体,形成待链接实体集合;大模型对每个待链接实体edata,m进行初步语义匹配,筛选业务知识图谱B-KG中字符串相似度不小于0.5或初步语义相似度不小于0.4的实体作为候选集; 之后,通过大模型的文本嵌入能力,计算待链接实体edata,m与候选实体ehx,n的语义相似度: ; 式中:LLM-Emb表示大模型文本嵌入函数,用于将输入的文本转换为高维语义向量; 预设相似度阈值SimX,若语义相似度不小于相似度阈值、则视为有效匹配,对应候选实体为链接结果; 最后,将业务知识图谱B-KG中链接的实体属性直接映射至解构数据集合的实体中,输出待业务语义属性的增强数据集合:,其中,si表示业务语义属性集合; 最后实现跨模态统一语义表征编码,具体为: 通过跨模态统一语义表征将不同模态的增强数据转为统一的高维语义向量: ; 式中:分别表示大模型嵌入的权重系数与上下文嵌入的权重系数;ei表示链接到业务知识图谱B-KG中的实体,KG-Emb表示业务知识图谱B-KG的实体嵌入函数;ci表示所在的业务上下文,Context-Emb表示上下文嵌入函数,基于数据所在的业务场景输出上下文向量; 通过噪声过滤剔除语义与业务知识或场景不匹配的噪声数据: ; 预设噪声阈值,若、则剔除,反之、则保留对应的统一语义向量vi; 最终获得跨模态统一语义表征向量集合: ; 步骤S2、特征提取:包括语义规则挖掘与特征模式提取、规则自动生成与优先级排序、规则与数据特征的动态绑定; 语义规则挖掘与特征模式提取包括业务文档规则挖掘与历史数据特征模式提取,其中业务文档规则挖掘具体为:首先,输入企业业务文档,并将业务文档拆分成语义连贯的业务主题块;之后,构造包括“业务主题块+规则类型+输出格式要求”的Prompt,并将Prompt传入大模型,获得初步规则候选;然后,通过大模型的语义解析能力,将自然语言约束映射为结构化表达式: ; 式中:LLM-Parse表示大模型语义解析函数,将自然语言转换为结构化条件;Constraint表示大模型输出的自然语言约束;Entitytype表示业务实体的类型; 计算规则置信度: 式中:表示大模型输出的权重系数;表示大模型输出该规则的概率;表示规则与行业或企业业务常识的一致性; 预设规则置信度阈值Confthrt,保留的规则,过滤低置信度规则; 通过冲突规则消解解决不同文档或主题中抽取规则导致的冲突性: 式中:ConfSet表示冲突的规则集合;表示规则来源文档的权威性; 最终,将经过过滤、消解后的规则整理为规则模板集合:;其中,rtf-j包含规则类型、业务实体、约束条件; 历史特征数据特征模式提取:输入历史高质量数据集Dhist与历史质量问题数据集Derror,通过预训练完成的HGNN提取跨字段跨表的特征模式集合; 规则自动生成与优先级排序具体为:将获得的规则模板RT与特征模式集合FP输入大模型,大模型计算规则生成概率: ; 式中:LLM-Predict表示大模型对规则模板与特征模式集合的组合预测得分; 将规则按照生成概率从大到小依次排列并选择规则生成概率排名前L的组合,生成结构化规则集合:; 通过业务影响、数据覆盖与置信度对结构化规则ri进行加权计算优先级,确保高价值规则优先执行: ; 式中:Impri表示规则的业务影响度;Coverri表示规则的数据覆盖率;Confiri表示规则的置信;分别表示对应权重系数; 将规则按照Pri从高到低排序,优先级高的规则在数据质量检测中优先执行; 规则与数据特征的动态绑定具体为:先将生成的规则ri与跨模态统一语义表征向量vi进行绑定: ; 预设绑定阈值Matchth,若、则将对应规则归入数据的适用集合; 实时监控数据分布与业务文档变化,动态更新、淘汰、新增规则: 计算当前数据分布Psent与高质量数据分布Qant的KL散度: ; 预设KL散度阈值KLth,若大于KLth、则证明该数据分布变化显著; 计算当前文档Docnew与原始文档Docold之间的语义相似度: ; 预设文档相似度阈值SimDth,若小于SimDth、则证明业务文档更新显著; 演化规则设定:若规则对应的统计模式超过KLth且后续连续多个窗口的相邻KL散度均超过KLth,则移除对应规则;若规则对应的统计模式超过KLth且后续连续多个窗口的相邻KL散度不超过KLth,则调整规则的约束条件;若规则对应的文档相似度小于SimDth,则基于业务文档的新增约束的新模板生成规则; 将演化后的规则重新计算优先级,并与数据特征重新执行动态绑定; 步骤S3、数据质量检测:先进行多模态数据质量特征的联合编码,再进行上下文感知的质量异常检测;具体为: 多模态数据质量特征的联合编码: 先将跨模态统一语义表征向量vi映射为对应的文本描述vtext,i、将规则集合Ri转化为文本描述Rtext,i,采用大模型的语义编码函数,输出语义特征向量fs,i: ; 式中:LLM-Encode表示大模型的文本嵌入函数; 针对结构化数据,构建数据关系图Gs,i=J,,其中,J为表节点特征集合与字段节点特征集合并集,为包含边、关联边、计算边三类边的并集,采用GNN编码图结构: ; 式中:GNN-Sencode表示异构图GNN的结构编码函数; 针对非结构化数据,通过大模型的结构编码函数编码内容的内在结构: ; 式中:LLM-Sencode表示大模型的结构编码函数;Unsc,i表示非结构化数据的内容结构; 将语义特征向量fs,i与结构特征向量ft,i拼接,获得联合特征向量: ; 上下文感知的质量异常检测: 采用上下文嵌入函数将业务场景ci编码为场景向量cemb,i,并与联合特征fi拼接,输入大模型上下文推理模块,计算异常概率: ; 式中:LLM-Infer表示大模型分类推理函数; 预设异常判定阈值,根据异常概率判定异常状态、并输出异常置信度Confoi: ,; 输出质量异常检测集合以及对应的异常置信度; 步骤S4、根因分析与修复:包括多源检测结果的融合、深度根因分析、可解释性报告生成、自适应修复执行与闭环验证; 多源检测结果的融合具体为: 对于每个数据vi,逐一检查其是否满足Ri中的每个规则约束条件,若满足、则规则匹配异常结果rm,i=0,若数据vi不满足Ri任意一个规则的约束条件、则rm,i=1,生成规则匹配异常集合; 获得数据vi在规则rj下的单规则异常置信度Confj,i: ; 式中:Confidencerj表示规则本身的置信度;Vioj,i表示数据vi对规则rj的违反程度: ; 对数据{vi}的适用规则集合Ri中的所有规则进行融合,获得规则匹配异常置信度: ; 基于质量异常检测集合、规则匹配异常集合以及对应的置信度,计算融合异常得分: ; 式中:woi、wri分别表示对应的权重系数; 预设得分阈值: ; 最终获得质量异常判定结果集合:; 深度根因分析具体为: 基于业务知识图谱B-KG与历史质量问题数据,构建包含“节点-因果边-因果概率”的因果图谱,其中,节点包含数据实体、规则、业务流程、系统组件、异常事件;因果边为有向边; 因果概率PJv|Ju表示节点Ju发生时、节点Jv发生的条件概率: ; 式中:表示历史质量问题数据中Ju与Jv同时发生的次数;表示历史数据中Ju发生的次数;LLM-CausalJu,Jv表示大模型推理出的Ju到Jv的因果强度;表示权重系数,用于平衡数据统计与大模型推理; 基于构建完成的因果图谱,对最终异常结果Ofinal进行根因定位:将最终异常结果Ofinal中的异常事件映射至因果图谱中的目标节点Jmv;搜索因果图谱中以目标节点Jmv为终点的所有有向路径,获得路径集合PJe,并针对每条路径plj∈PJe,获得路径上所有因果边的概率乘积: ; 式中:表示遍历因果路径plj中的所有因果边Ju,Jv,并对每条边的因果概率进行连乘运算; 通过最大概率乘积筛选出最优根因路径: ; 最后将最右根因路径PathMpe对应的节点序列、转化为自然语言描述的根因链; 可解释性报告生成具体为:收集包括异常数据、根因分析、基于业务知识图谱获得的异常业务影响、触发异常的适用规则级内容,生成可解释性报告; 自适应修复执行与闭环验证具体为:基于根因分析类型与业务知识图谱,大模型提取适配的修复策略,修复策略包括自动修正与人工审核;修复后的数据即重新输入数据预处理阶段,进行全流程质量检测,验证修复结果:若异常率仍高于阈值,则触发规则更新或根因分析进行反复迭代修复,直至满足要求。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆市建设信息中心,其通讯地址为:400014 重庆市渝中区长江一路58号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励