腾讯的大模型故事从产业开始

ChatGPT 火了之后，很多对未来生成式 AI 的愿景直觉性的指向微信。这个超过 12 亿人每天多次打开的地方，是当下最活跃的信息交换场，也是最期待被生成式 AI 重做一遍的地方。这从不断出现又不断被封的各种野生 " 微信 Bot" 中可见一斑。

(资料图片)

敲边鼓的人多了，更显出腾讯的谨慎。

" 对于工业革命来讲，早一个月把电灯泡拿出来，在长的时间跨度上来看是不那么重要的 "，马化腾在今年 5 月的一季度财报会上这样说。他还表示，" 关键还是要把底层的算法、算力和数据扎扎实实做好——更关键的是场景落地 "。

言下之意，腾讯要拿出来的，一定是在产品和技术上完备，并且想清楚如何落地的东西。

6 月 19 日，距离马化腾的发言一个月后，腾讯首次披露大模型方面的进展，主角是腾讯云，攻的是行业大模型。

" 精选商店 "

如果说大模型竞争是一场在技术上拉平所有 AI 领域玩家的竞争，那么随着过去几个月国内对于大模型的讨论逐渐从通用转向更务实的产业视角，大厂反而在更具体的竞争中找到了自己的优势。

" 现在是一个合适的时间点，把我们过去一段时间（大模型）的实践、沉淀、思考和我们所积累的工具链给大家做一些分享 "，腾讯云副总裁、腾讯优图实验室总经理吴运声表示。

腾讯云在大模型方向上迈出的第一步是腾讯云 MaaS，或者叫一站式行业大模型精选商店。

腾讯云 MaaS 全景图图源：腾讯云

云厂商被认为会在大模型渗入垂直领域的过程中发挥巨大作用，因其在天然在服务企业客户的过程中具备垂直领域视角的同时，又站在领域内各企业狭窄的个体视角之外。企业在大模型训练、部署的门槛与成本考虑中遇到的障碍会在云厂商所处的更高维度的行业视角下找到平衡。

首先是数据质量差的问题。构建大模型也是成本极高的系统工程，大模型需要大量的高质量数据进行训练和优化，还必须经过清洗和预处理，以消除噪声、填补缺失值并确保数据质量，经常会因为数据各类问题，导致模型的效果和效率无法得到保障。如果导入的数据质量低，那训练出来的模型也会有问题——所谓的 garbage in garbage out。

再者是计算资源有限。大模型需要较高的计算资源和存储资源，但很多企业和机构缺乏这方面的资源，导致无法进行大模型的训练和推理。对比一般服务器来说，GPU 服务器的稳定性比较低，大模型训练需要的 GPU 动辄千卡，而且在训练集群里，连接几百台 GPU 服务器所要求的网络速度极高，如果网络有点拥塞，训练速度就会很慢，效率很受影响。

除此之外，对于大模型的开发和落地环节专业知识和人才的缺乏又会进一步拉高企业在大模型上的投入成本。

腾讯云做 MaaS 并不让人意外，后者称为未来云厂商的基础能力已经开始成为共识。而不同的是，腾讯云尝试用更 " 量体裁衣 " 的解决方案，来拆解企业在大模型落地时面临的实际问题。

这个 " 精选商店 " 拆开来看是一个三层架构：顶层是面向行业的 MaaS 层，底层是以行业大模型和基础设施组成的技术底座，以腾讯 TI 平台为主体的的工具层则成为中间支撑，为企业客户提供涵盖模型预训练、模型精调、智能应用开发等一站式行业大模型解决方案。

发布会上 17 家来自不同行业的生态伙伴同台出现，腾讯云在行业大模型上的优势首先来自多年在产业互联网上积累下的行业知识。

通用大语言模型在应对产业场景落地时存在一定的局限性。一来通用大模型的训练数据主要来自公开数据集或网络数据，对于特定行业的专业领域知识了解有限。并且通用大语言模型的训练需要大量计算资源和漫长的训练周期，这对企业来说是高昂成本。

腾讯云 MaaS 的训练基于包括金融、政务、文旅等一整套高质量的行业大模型，目前在大模型行业应用方面已经有了包括智能客服、OCR、跨模态检索等领域在内的 50 多个行业解决方案。对于这些领域的企业来说，这意味着一个具有行业通识的大模型是现成的。在此基础上加入自己独有的场景数据做精细化的训练，门槛要低得多。企业可以快速生成自己的专属模型，也可根据自身业务场景需求，按需定制不同参数、不同规格的模型服务。

而在具体的训练环节，企业并不希望回答一个完全开放性的问题。他们需要完善的模型工具，和一个被反复验证的高效而成熟的训练流程来做指引。腾讯内承担全栈式 AI 开发服务的 TI 平台所提供的工程化能力是腾讯云 MaaS 的核心，后者拥有从数据标注、训练、评估到测试和部署的一整套大模型工具链。

TI 平台是背后核心

2021 年腾讯云在 TI 平台下推出了 TI DataTruth、TI ONE 和 TI Matrix 三大 AI 底层平台，提供包括算法开发、模型训练、数据标注和数据处理等一系列开发能力。这一平台升级计划强化了 TI 平台的工具属性，也成为腾讯云在大模型领域寻找自己位置的伏笔。

TI-DataTruth聚焦数据生产要素——提供数据标注作业、数据众包管理、场景数据挖掘等智能数据生产服务。

TI-ONE是整个大模型开发流程的重心——内置多种训练方式和算法框架，为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持，满足不同 AI 应用场景的需求。

TI-Matrix靠近应用层——支持快速接入各种数据、算法和智能设备，并提供可视化编排工具，进行模型服务和资源的管理及调度，进一步通过 AI 服务组建集成和标准化接口开放，降低 AI 应用开发成本。

而腾讯自研的机器学习框架 " 太极 Angel" 也在传统 CV、NLP 算法模型的基础上，新增了对大模型的训练和推理加速能力。通过异步调度优化、显存优化、计算优化等方式，" 太极 Angel" 加持下的训练和推理过程相比行业常用方案性能提升 30% 以上。

" 现在把 TI 平台升级到 MaaS，不是说工具属性没了。工具属性仍然有了，仍然是非常重要的，但是除了有工具属性之外，我们内制了很多行业大模型，在平台内训练了自己的模型之后，这个模型可以直接完成下游任务，提供对外的服务去做应用。"

吴运声表示，此次 TI 平台完成了一次从算法到产品层面的完整升级，而隐于其后的充沛算力供给，来自专为大模型训练设计的新一代 HCC ( High-Performance Computing Cluster ) 高性能计算集群。

今年 4 月，腾讯云面向大模型训练的新一代 HCC 高性能计算集群发布，后者采用最新一代的腾讯云星星海自研服务器，多层加速的高性能存储系统，加上高带宽、低延迟的网络传输，具备 3.2Tbps 业界最高互联网带宽，算力性能提升 3 倍。

去年 10 月腾讯完成首个万亿参数的 AI 大模型混元 NLP 大模型训练，在同等数据集下，前一代 HCC 高性能计算集群已经可以将训练时间由 50 天缩短到 11 天，而如果基于新一代集群，训练时间将进一步缩短至 4 天。在行业大模型的讨论里，一切为最终的产业落地服务，这不是一场万亿模型的规模游戏，重点在灵活和效率。

腾讯云也推出了更适合 AI 运算的向量数据库。后者能够更高效地处理图像、音频和文本等非结构化数据源，能力源自腾讯内部每日处理千亿次检索的向量引擎（OLAMA），提供高吞吐、低延迟、低成本、高可用、弹性扩展的一站式向量检索数据库，单索引支持 10 亿级向量规模，检索，数据接入 AI 的效率会比传统方案提升 10 倍。

大模型的兴起正在反过来重塑云厂商未来的发展发向，腾讯云副总裁刘颖将此归为一个从 AI1.0 到 AI2.0 的变化。

" 在 AI1.0 时代，我们重视单机单卡的性能、标量数据的结构化精准检索，以及云原生带来的自动调度。新的背景下，AI2.0 的业务迭代更快，服务重心也变成了 AI 企业及大模型，我们需要把关注点转移到集群性能的提升、向量数据的存储与检索，以及自动容错能力上。"

" 这意味着需要更加灵活、自由、高性能的云平台。" 这也是腾讯云切入大模型的姿态。