人工智能高质量数据集炼金?工坊生态行首站在成都正式启动,炼金工坊是什么游戏

  更新时间:2026-01-17 23:18   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

海天瑞声中国电信成都分公司高级工程师北京海天瑞声科技

<p id="48FOF1R7">1月16日,由(成都传?媒产业集团旗下红星传媒联合中国人工智能产业发展联盟数据委员会主办的第三届“大模型 大未来”人工智能大模型基准测试发展大会暨人工智能高质量数据集炼金工坊生态行在成都高新区举办。</p> <p id="48FOF1R8">作为大会的重要环节,“人工智能高质量数据集炼金工坊生态行”首站活动于当天下午同步开展。中国电信、海天瑞声、四川长虹等多家企业代表齐聚现场,分享各自在高质量数据集和数据标注建设方面的实践成果,为行业提供宝贵经验。</p> <p id="48FOF1R9">当天下午,中国信通院人工智能研究所、中国信通院成渝分院、文心大模型数据生态中心、四川长虹、天津大学、海天瑞声、中国电信成都分公司、砺英数智8家单位携手,宣布启动“四川数据标注和数据质量评估能力共建计划”,该计划将汇聚各方力量,为大模型产业高质量发展注入强劲动能。</p> <p class="f_center"><br></p> <p id="48FOF1RB"><strong>“生态行”落地成都,探索数据赋能路径</strong></p> <p id="48FOF1RC">如果说大模型是人工智能产业的“核心引擎”,那么高质量数据集就是驱动引擎持续运转的“燃料与基石”。“高质量数据集炼金工坊”生态计划依托于中国人工智能产业发展联盟,由中国信息通信研究院人工智能研究所牵头,联合中国国家图书馆、高等教育出版社、中国科学院文献情报中心等多家单位共同发起。</p> <p id="48FOF1RD">作为西部重要的数字经济和人工智能产业集聚地,成都在数据资源管理、应用场景培育和产业生态建设方面具备良好基础。此次“生态行”落地成都,既是对区域数据要素发展实践的集中展示,也旨在通过跨区域、跨主体的交流协作,探索可复制、可推广的数据赋能路径,为大模型产业高质量发展夯实数据根基。</p> <p id="48FOF1RE">在“生态行”首站活动现场,中国人工智能产业发展联盟数据委员会主任、中国信通院人工智能研究所平台部副主任李荪在致辞中表示,人工智能高质量数据集从国家正式提出相应的概念,到现在大概一年多时间。整个高质量数据集在各地以及各行各业已经引起了强大的反响,成都也是国家的七大数据标注基地之一。希望让更多行业“沉淀在地下的黄金”,变成“流动的黄金”,通过人工智能炼金工坊的生态活动,极大地推动数据要素价值的更快释放,以及人工智能的快速应用落地。</p> <p class="f_center"><br></p> <p id="48FOF1RG">模型的卓越能力源于优质数据的喂养,产业的高质量发展离不开坚实数据基础的支撑。四川省大数据发展研究会副会长、秘书长秦强子在致辞中表示,四川省大数据发展研究会凝聚了288家会员单位,联动超过3900家生态数据企业,超过3万名数据选手资源,初步构建了协同发展的良好生态。我们的核心业务紧紧围绕数字经济发展的关键环节展开,其中“三赛一行”成为服务数据产业创新,挖掘培育人才,促进数据要素流通的特色品牌与重要抓手。</p> <p id="48FOF1RH"><strong>“炼金”高质量数据集,专家分享前沿实践与思考</strong></p> <p id="48FOF1RI">天津大学计算机科学与技术学院教授、深圳河套学院双聘教授、天津大学“语言智能与技术”中外联合研究中心主任熊德意在主题分享中表示,大模型首先是大量的数据,加上算法和算力,然后把模型炼成智能,再去完成任务。大量的数据、海量的数据,但是这个量不等于数据的“智”,所以我们国家要建高质量数据集。怎么样找到高质量数据集,这是在模型、在应用当中很重要的一个瓶颈问题。最近工信部提出了“模数共振”,引导人工智能模型与高质量数据集协同创新、深度融合。</p> <p id="48FOF1RJ">中国信通院人工智能研究所专家樊威在主题分享中作出预判:2026年有四类数据集会爆发,一是世界模型的数据需求,像World Score里面有3000个样本涵盖静动态及室内外等多种场景;二是具身智能的数据需求,也就是真实世界机器人数据和仿真合成数据;三是智能体的数据需求,它需要的是与测试环境深度耦合的交互数据;四是行业模型数据需求,未来是三措并举来推动高质量数据集建设,包括数据工厂、体系建设、开发维护、合规可控等。</p> <p class="f_center"><br></p> <p id="48FOF1RL">中国电信成都分公司高级工程师、大数据和AI中心副总经理罗莉表示,人工智能到哪儿,数据标注就到哪儿。中国电信在“采存管用、标训推测”这八个方面都有着全链条的智能处理能力,特别是多数据、多模型、多算力等方面的协同能力有很大的提升。</p> <p id="48FOF1RM">文心大模型数据生态中心负责人黄能表示,目前正处在人工智能技术革命的第四个阶段,从逻辑的推理到知识的推理,到深度学习为主的,包括向视觉、语义识别等等的技术,今天处在第四个浪潮,就是生成式的人工智能。目前通用人工智能技术和多模态融合还处在蓬勃的发展期,我们也看到未来的机会,尤其是AI的应用马上会到一个很好的爬坡期,然后也会涌现出非常多的商业模式。</p> <p id="48FOF1RN">四川长虹云计算与大数据研究中心副总经理唐博表示,早期企业做信息化的时候,很多数据集成主要围绕业务场景,需要相应的定制化开发,但这会导致“数据孤岛”的问题。因此我们提出了数据中台、数据湖、数据汇聚的概念。但也带来新问题,先汇聚、后应用的方式会导致数据跟应用场景之间的匹配很难掌握,而且大量数据在没有被应用的情况下就汇聚上来,汇聚的成本很高,存储的成本也很高。唐博认为,人工智能高质量数据集有五个特色:规模大、安全牢、观点正、效果好、应用广。</p> <p id="48FOF1RO">北京海天瑞声科技股份有限公司首席专家王淳表示,从我们自己的生产过程来看,感觉今天的很多大模型多多少少存在一点缺陷,比如反馈不够精准,不够及时,不够严谨,甚至有个别的地方是不够准确的。我们从客户的需求能够感觉到一些行业诉求的变化,比如以前从单纯的单模态数据需求,到今天需要多模态需求;以前是通用场景的需求,到今天行业场景的需求。最近就有包括工业、医疗、农业、林业、水利等等很多的需求,还没有相应的知识储备,但都已经在我们的需求清单了。</p> <p class="f_center"><br></p> <p id="48FOF1RQ">砺英数智(北京)数据技术有限公司总经理李图龙表示,传统的数据中台解决了“数据汇聚”,却没有解决“数据怎么用”的问题。他分享到,当前面向大模型应用,应以真实业务场景为牵引,通过规划设计、数据加工、模数共振训练、场景运维和数据运营这五个路径来实现高质量数据集建设。</p> <p id="48FOF1RR">红星新闻记者 李伟铭</p>

编辑:萨顶顶