一个 AI 大模型的从某些意义上讲可以看作是一个人,而对于这个 「人」 来说,数据就是 「氧气」,就如同脱离了氧气之后人类无法存活一样,脱离了数据,AI 大模型也无法真正落地。
在 2024 中国国际大数据产业博览会期间,浪潮云围绕大模型在行业侧应用落地的一系列问题与金桂财经进行探讨。
大模型正在 「改变」 社会劳动形态
在对话中,浪潮云总经理颜亮多次提到了 「改变」 一词。确实,大模型的出现已经开始改变人们的生产生活方式,大模型对生产力带来的改变主要有三点,分别是劳动者、劳动工具,以及劳动对象。
劳动者方面,大模型的出现正在优化一些岗位,解放一部分人力,一方面能让一个人有更多的精力,从事更多的事情;另一方面,从企业角度出发,大模型的应用也实现了部分岗位的降本增效。
劳动工具方面,基于大模型,很多开发者研发出了新的工具,这些工具也在进一步解放生产力,同时也诞生了一些诸如模型优化师、AI 应用开发者等新的岗位。而大模型的出现可以说是为原本走下坡路的 SaaS 行业注入了一针强心剂,让一部分 SaaS 企业在这个 「寒冬」 中看见了一缕 「暖光」。
劳动对象方面,大模型时代,与过去相比,劳动工具扮演角色的属性要强化了很多,在新一轮的技术革命中,会产生一些人和机器分工的变化,机器通过学习的方式,发展到了一定的程度,会产生一些角色扮演。颜亮指出,「现在看到最多的 AI 的角色扮演是助手,实际上浪潮云在做一些业务场景尝试的时候,有些是有独立角色扮演。所以这一轮的角色扮演带来新的分工,实际上是整个进步的基础。」
数据是智能的 「氧气」
伴随着云计算的发展,企业对数据有了初步的认知,从原本觉得数据 「一文不值」,逐渐变得越来越重视自身数据安全,再变得认识到数据资产的重要性,开始尝试用自身的数据,甚至外部的数据赋能业务发展,寻找新的增长点。
2020 年 4 月,国务院发布文件 《关于构建更加完善的要素市场化配置体制机制的意见》 此次意见首次把数据和土地、劳动力、资本、技术四大传统要素并列,成为第五个生产要素。这也让数据成为政府、企业关注的焦点,随后的几年数据产业发展步入了快车道。
尤其是在 2022 年底,ChatGPT 横空出世以后,新一轮 AI 的浪潮席卷各行各业,企业对于数据的重视程度越来越高。而 2023 年 10 月,国家数据局的正式成立将数据的重要性推到了一个新的高度。
数据在 AI 时代也愈发显得重要,中国信息通讯研究院云计算大于数据研究所所长何宝宏表示,伴随着大数据产业的发展,数据质量越来越高的前提下,人工智能已经逐渐从以代码为中心,转向以数据为中心的人工智能,「当下企业需要通过加强数据治理和增强数据质量,来解决模型输出效果。」
与此同时,何宝宏表示,数据作为第五大生产要素,正在从数据资源演变为数据资产,其经济属性日益凸显,数字经济迈向以数据可信流通为核心的数据技术 3.0 时代,大模型的出现加快了各行各业的数字化和智能化升级进程,正在推动智能技术产生深刻变革。
显然,在以数据为中心的 「新」 人工智能时代,数据已经成为了智能不可或缺的存在,就像人类离不开氧气一样,数据就是人工智能的 「氧气」。
IDC 中国区研究总监卢言霞表示,通用大模型与行业大模型共同成就中国特色生成式智能之路,但在数据要素与智能技术的融合发展过程中,仍然面临诸多挑战。
而在这个过程中,将数据与 AI 深度融合,赋能业务也仅是企业要考虑的第二步。因为从现阶段的发展情况上看,绝大多数企业之所以还不具备快速落地应用行业大模型,或者专有小模型的主要原因就是数据量和数据质量不够。
其实单从数据量上看,正如同那句话——中国地大物博,中国国内所无论是个人行为,还是企业之中,所产生的数据量是庞大的,但在孙思清看来,虽然中国不缺少数据,但是却缺少高质量的数据。
针对此问题,浪潮云给出了解决办法,在数据层面,在大模型时代,企业需要在原先的大数据平台、数据治理体系之上,更加多的关注高质量数据的 「生成」,创建更多的高质量的数据集。
国家数据局成立后,产生越来越多的高质量数据集的过程也随着数据采集、存储、流通、使用的闭环流程的完善,得以提速。
除此之外,伴随着生成式 AI 的火爆,合成数据也成为了大模型时代企业训练大模型的 「必备品」,Gartner 数据显示,2024 年,60% 用于 AI 开发和分析的数据将会是合成数据;2026 年,GPT 等大型语言模型就将耗尽互联网上可用的文本数据;2030 年,合成数据将彻底取代真实数据。显然,合成数据发展的速度是超乎想象的。不过目前业内对合成数据的看法并不一致。
一种观点认为,合成数据无异于 「近亲繁殖」,会造成模型崩溃的情况,这种观点主要的核心理论是:如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部 (低概率事件) 会消失!其主要观点来自于牛津、剑桥等机构在 Nature 杂志发布的一篇论文。
另一种观点认为,当现实中高质量数据不足的时候,合成数据能够精准地提供高质量的数据。IBM 大中华区首席技术官谢东告诉金桂财经,合成数据是现在比较有效的方法,特别是训练一些大模型的时候,主要原因是因为合成数据的质量比较高,覆盖性比较好,可以满足利用一些比较精简的数据集训练出好用的模型产品。
显然,数据,尤其是高质量的数据集,已经成为大模型发展的核心所在,而众多提供模型能力的厂商也都积极在这些方面布局。以浪潮云为例,浪潮云首席技术官孙思清告诉金桂财经,浪潮云围绕政府、交通、医疗、农业、应急、制造 6 大行业,已经构建了 3000 多个行业数据集,在帮助用户部署模型业务的时候,浪潮云会带数据入场,让用户具备初步落地应用模型产品的能力,」 孙思清指出,「不过若想模型产品真正触及核心业务,且好用的话,还是离不开企业自身提供的专有的高质量数据集。」
有云处皆智能,智能云时代场景是关键
数据质量愈发重要,也得益于大模型逐步在行业侧的应用落地,「如果说 2023 年是大模型元年的话,那么 2024 年就是大模型在行业侧应用的元年。」 颜亮在与金桂财经的对话中说道。
确实,2023 年,各大厂商都在 「卷」 模型参数大小,而 2024 年开年至今,厂商将 「讲故事」 的方向转向产业侧,不断有小模型和大模型+小模型的解决方案涌现,为企业本地化部署铺平道路。
生成式 AI 的快速发展也并不是偶然。浪潮云认为,此轮 AI 浪潮的火热离不开作为底层基础设施的云计算的发展成熟,因为公有云、行业云等云基础设施成熟了,才让新一代的人工智能能具备改变环境的能力。
不同于以往,新一轮的人工智能不再是功能性的智能,而是系统性的智能,「从智能角度出发,新一轮的 AI 浪潮带来的是整个智能组织性的提升。」 颜亮告诉金桂财经,「在行业侧来看,每个部门都在寻找大模型可以落地的应用场景。」
而这个系统性的智能显然离不开底层支撑的云计算。作为大模型能力的重要载体,可以说云计算的下一站必然是智能化。未来,云和智必然是高度耦合的,云既是基础设施,也是模式。从智能化输出上看,新一轮的 AI 革命将呈现出服务态,以及云智一体的趋势。
正如同当下很多企业提出了 MaaS(模型即服务) 一样,就行业云而言,模型服务是整个技术堆栈的一部分,MaaS 服务原先就存在,只不过在大模型出现后,大家对 MaaS 服务更加关注了。
但 MaaS 服务仅仅是未来智能云发展过程中的一部分,除了 MaaS 服务以外,智能云服务还有底层智算的算力服务,以及数据相关的服务,甚至是数据集相关的服务,「MaaS 服务仅是未来云向着智能化发展的一部分,再往上还会出现智能体的 SaaS 服务,虽然 MaaS 服务很重要,但它一定是全堆栈在人工智能体系中进行的服务,要针对不同场景选取。」 孙思清指出,「就浪潮云来讲,浪潮云可以提供从 IaaS 到数据,再到传统 PaaS,以及 MaaS,甚至一部分标准的智能体 SaaS 的全场景的服务,这也是为了行业云厂商所需要必备的能力。」
「仅仅有技术还是不够的,真正的系统性的智能需要将全栈式的人工智能的能力与下沉的场景结合,企业不但要有好的技术,更要有好的业务场景的理解能力和落地能力,」 颜亮告诉金桂财经,「否则即便企业拥有好的模型技术,欠缺场景的结合能力,也体现不出场景智能化的能力,无法激发真正的智能云的能力。」
其实从各大云服务商的产品布局上就不难看出,他们都已经不在发布会或者宣传中过多提及他们模型参数的大小,而是更聚焦在应用场景之中,以浪潮云为例,浪潮云聚焦的 6 大场景,一方面是因为本身在这 6 个行业就有比较坚实的基础积累,另一方面,在这 6 个行业中,浪潮云也将聚焦的颗粒度进一步缩小,聚焦某个或某几个场景中,这也正好印证了浪潮云的观点:真正好用的智能云是需要与切实场景相结合的。
除了浪潮云以外,可以看到目前发展比较成功,落地效果比较好的大模型也都是这么做的,京东云选择将场景重点布局在电商和物流两个京东集团 「发家之本」 上;东软则是选择布局在本身擅长的医疗与 HR 领域;奇安信、360 等安全厂商则是围绕自身擅长的安全领域,布局了新一代云端安全解决方案......
这样的例子不胜枚举,可以看到,云计算的下一站就是智能化,且这种趋势已经在进行之中,而智能云的时代,与场景融合的能力,决定了智能云是否真的 「智能」。(金桂财经,作者|张申宇,编辑丨盖虹达)