陆志鹏:坚持体系创新,发展绿色数智——一种基于数据元件构建的数据算力基础设施
3月19-20日,由中华人民共和国商务部指导,新加坡贸易及工业部特别支持,中国机电产品进出口商会、新加坡中华总商会主办的2024年国际产业合作大会(新加坡)暨中国机电产品品牌展览会在新加坡召开。中国电子党组成员、副总经理,中国电子数据产业有限公司党委书记、董事长陆志鹏受邀出席并作主题发言。
在“绿色数智”分议题研讨会上,陆志鹏作题为《坚持体系创新,发展绿色数智——一种基于数据元件构建的数据算力基础设施》的发言。他表示,“双碳”战略是以习近平同志为核心的党中央经过深思熟虑作出的重大战略决策,对发展绿色智能提出了要求。当前生成式人工智能的发展将面临着绿色低碳的巨大挑战,根据国际能源署(IEA)估算,由于生成式人工智能快速发展等因素影响,2026年全球数据中心耗电量最多将达到2022年的2.3倍,达到620-1050太瓦时。在传统算力能力已接近摩尔定律极限和数据量以指数级持续增长的双重压力下,软硬结合的体系优化是应对绿色数智发展挑战的最优解决路径。
中国电子探索构建基于数据元件的数据算力基础设施,设计形成了由数据金库、数据要素加工交易中心、数据要素互联网等组成的基础设施总体架构。数据元件是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集,或由数据的关联字段通过建模形成的数据特征,具有安全属性、价值属性和质量属性,可有效提升数据价值密度。
他指出,数据元件符合信息技术的三大发展趋势,一是符合互联网技术发展趋势,即随着信息互联网、物联网向数联网的深入演变,互联对象正从计算机、物体逐步转变为数据。二是符合6G通信技术发展的趋势,迈向“万物智联,数字孪生”时代,第六代移动通信将面临海量连接间的大规模数据交换可能导致的网络复杂度迅速提升、网络开销急剧增长等挑战,而数据元件具备统一表征、方便度量、压缩率高等特点,可以作为6G通讯的载体完善理论架构。三是符合计算技术发展的趋势,从计算机诞生起,数据管理一直是刚需。数据库技术的出现,打破了数据应用一体的信息系统构建方式,实现了数据和应用的第一次分离。然而基于数据库的信息系统仍然是业务导向,采用的是“面向应用、效率优先”的数据组织方式,难以满足泛在计算时代不断扩大的数据应用需求,数据互联成为快速发展的技术方向,探索数据和应用的物理分离(价值分离)成为新的着力点。
基于数据元件构建的数据算力基础设施具有提高超大规模数据处理能力、提高大模型的应用性能、超大规模数据处理能耗最低的特征。在提高超大规模数据处理能力方面,作为数据算力基础设施核心之一的数据要素加工交易中心,是集软、硬件于一体的大规模、全流程、自动化的数据元件加工生产控制流水线,具备超大规模数据的处理能力,能够有效提高大规模数据的处理效率。在提高大模型的应用性能方面,通过对数据清洗治理形成样本数据,利用样本数据进行调试,训练好的元件模型能够加载全量数据生成数据元件结果,大大提高了大模型的使用性能。在超大规模数据处理能耗最低方面,数据元件提供统一的数据表征方式,在训练、微调过程中可根据业务领域、模型规模、模型能力等维度调用语义知识库的分类描述,按需获取元件资源,在不改变大模型应用效果的情况下,具有重复使用、跨域共享使用等特点,降低了大模型发展对算力的消耗。以11.8万字的文档为例,通过加工成元件后,能够得到4.07万Token的预训练元件,相比其他表征方式同比降低70%,再利用同样的文档加工出3000余个微调QA元件,对领域大模型进行训练、微调后,大模型回答流畅程度、准确定、专业性均有大幅提升,有效回应了绿色数智的发展要求,切实以数字化赋能绿色化,共塑低碳未来。