阿里巴巴基于数据资产图谱的定价算法与生产函数项目
返回案例列表
元数据知识图谱数据血缘治理2025

阿里巴巴基于数据资产图谱的定价算法与生产函数项目

客户背景

集团拥有 3 千万张数据表、数亿指标字段,数据体量庞大,业务人员自然语言查数需求旺盛,亟需打通数据治理与智能查询能力。

业务痛点

超 80% 指标重名,数据生产链路复杂,口径差异难定位,数据一致性无法保障;人工写 SQL 门槛高,自然语言转 SQL 准确率不足,查询逻辑易出错;元数据、数据血缘未充分赋能大模型,知识召回冗余、模型迭代效率低;重复建表、指标冗余问题多,缺少自动化治理手段。

解决方案

搭建元数据知识图谱 + 自然语言大模型双引擎协同体系:元数据图谱基于 SQL 解析、图计算、数据血缘链路,自动拆解生产逻辑,识别同名指标、定位口径差异;NL2SQL 智能查询采用 7B 大模型实现意图识别、知识召回、自动生成并校验 SQL,配套结果解释;多维度持续优化迭代 SFT 样本、知识库召回、元数据解析、模型调度链路,双向协同治理冗余数据。

效果数据

一期 NL2SQL 产品落地,查询准确率接近 70%,达行业领先水平;依托血缘图谱自动识别重名指标,快速定位数据口径不一致问题;大模型与元数据联动,减少重复数据表建设,降低数据治理成本;标准化自然语言查数流程,大幅降低业务人员取数门槛。