新智元报道
新智元报道
【新智元导读】这两天,刚刚空降编辑部的这名新员工,写文章、起标题,样样都很溜。谁能想到,这背后竟是因为腾讯云的大模型平台,把大模型精调的门槛给打下来了。
最近,公司的编辑部来了一位「新同事」。
选题会一结束,小编们还在吃早饭呢,ta就已经开始噌噌出活了。
这位同事是什么来头?故事还要从这里说起——
热闹了大半年后,大模型显然已经度过了「尝鲜期」。
虽然现在的业内共识是:一定要落地,一定要产生价值。但如何训练、如何精调、如何部署等等专业壁垒,却铸成了一道道高墙。
就在昨天的2023腾讯全球数字生态大会上,腾讯首次对外公布了腾讯混元大模型进展,并且宣布从技术底座、平台能力、智能应用三大维度升级腾讯云MaaS能力。
其中,腾讯云MaaS平台不仅包括了自研腾讯混元大模型底座,而且还支持业内20余款主流开源模型。升级后的腾讯云行业大模型精选商店,可以让用户更快速、更便捷地构建专属自己的大模型。
于是,一个令人兴奋的脑洞,正在编辑部办公室酝酿中……
四步训出「新智元」大模型
既然腾讯云的大模型平台可以让我们快速搭建一个自己的专属大模型,还能在平台上实现一键部署。
那不如就搞个新智元的大模型?让它作为编辑部的新任员工——帮我们写稿!
说干就干。
在学习了官方的文档之后发现,我们惊喜地发型:精调一个「新智元大模型」,竟然4步就能搞定!
第一步:创建挂载文档
首先,在腾讯云TI平台上创建一个用于存放数据的CFS文件存储系统。
然后,新建一个Notebook实例,并将配置好的CFS挂载到该容器实例上。
接下来,是非常重要的一步,数据准备。
为此,我们整理了近期新智元发表的文章。
第二步:选择模型、启动训练
进入「大模型精调」页面后,可以看到能够选用的各类大模型。
其中,除了腾讯自研的大模型外,还有Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多款主流开源模型。
腾讯云之所以集成了如此丰富的基础模型,是由于用户需求千变万化,不同行业和场景对模型要求不尽相同,用户希望能够在多样的产品做出选择。
基于这些模型,企业可以通过结合自身数据进行训练和精调,打造出更实用的智能AI应用。
然而,新的问题又随之而来:「这么多模型,我到底该选哪个才好」?
不着急,这个问题鹅厂也想到了,针对用户可能存在的「模型选择困难症」,平台推出了「快速试一试」功能。
你只需要点几下鼠标,就可以在TI平台上测试自己感兴趣的模型是不是符合实际的场景需求,期间完全不需要去进行复杂的手动搭建。
在这里,我们选用了能够一键试用的模型——腾讯自研「多行业客服场景大模型」。
选定基底模型之后,就到了精调「新智元大模型」的时间了。
整体而言,TI平台支持SFT和LoRA这两种常见的精调模式。
其中,SFT属于全量的微调。如果数据量大的话,SFT的效果就会足够好,可以视为对模型进行一次整体的重训。
而LoRA并不改变原有模型,是额外增加一个小参数矩阵,成本相对较低。只需使用少量数据,就可以给模型在特定任务上的能力进行补充和强化。
接下来,再配置一下参数,就可以开始模型的训练了。
整个过程,小编一行代码都没有编辑,就直接开启大模型精调了!
第三步:监控训练、查看输出
模型开始训练时,我们可以随时监控任务训练的过程。
TI平台提供自定义训练指标的上报接口,只需将重点关注的指标进行上报,便能够在页面进行可视化监控。
经过全面升级后的腾讯云TI平台,可以提供模型训练所需的各种能力:
腾讯云TI平台提供的多机多卡、断点续训的能力,能够保障模型训练任务稳定高效地运行。
其次,训练监控能力,可以实时监测训练指标和资源利用率情况。
然后,任务管理能力,可自动管理模型多次迭代的训练任务,将每次训练任务进行超参快照记录,好处在于能够快速还原训练现场。
最后,腾讯云TI平台还支持记录模型中间结果checkpoint,可以选择指标最优的模型,进行发布部署、调用。
升级后的腾讯云TI平台优势在于,模型训练过程中出现问题后,客户能够及时检测,发现问题后纠正。
在训练过程中,我们会不可避免地遇到一些问题。
举个栗子,大模型训练过程中,周期长,因为各种因素会出现中断。
关于Meta内部的一次模型训练日志显示:
在训练完成到30%左右处,研究人员在两个星期内,因为硬件、基础设施或实验稳定性问题,重新启动了40多次。
可见,训练过程中「断点续训」对于模型连续性训练非常重要,同时还能为研究人员节省大量时间。
比起小模型,大模型的训练成本相对较高。
而TI平台提供的一大优势就是,能够让训练任务排队队列调度,实现自动化高效利用集群资源。
另外,TI平台还集成了一些巡检工具,针对常见故障,比如GPU掉卡、ECC异常、RDMA网络故障等常见的问题进行自动化排查,从而并及时解决问题。
在训练结束之后,我们就得到了精调后的「新智元大模型」。
总结来说,得益于TI平台的全面升级,我们在精调「新智元大模型」的整个过程中,体验都非常丝滑。
据介绍,TI平台在算力方面,接入了腾讯云HCC高性能计算节点及星脉高性能计算网络,可提供3.2Tbps的网络带宽;而在存储方面,也接入了具备TB级吞吐能力和千万级IOPS的高性能存储,可在跨机器的多机多卡训练中,性能有了大幅提升。
此外,全新升级的太极Angel大模型加速框架,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升了30%以上,推理加速比达到了2倍。
可以说,每一个环节,都在为大模型精调提速。
第四步:部署调用模型
最后,借助升级后的TI平台,我们现在就可以一键把「新智元大模型」部署成在线服务。
为了方便用户进行快速体验和生产上线,TI平台提供了页面可视化调用和API调用两种方式。
我们只需在页面中配置服务部署所需的资源,服务运行环境,服务的扩缩容策略等,即可完成服务部署。
最后,我们来验证一下,刚刚精调出的大模型究竟效果如何?
给它一段来自网上的英文原始材料,让它生成一篇关于英伟达GPU短缺的简讯。为了更贴近新智元的文风,我们要求它多用短句、多分段。
才几秒钟,新智元大模型的大作就诞生了。
整体来说可圈可点,不过,文字间难免还是有那么点AI的感觉。
解决完正文之后,那最让小编们头疼的标题效果如何?
你别说,还真有点那个味了!
现在可以宣布——新智元大模型,基本获得入驻编辑部资格!
值得注意的是,很多行业的需求实际上要复杂得多,进而也需要经过更加细致和繁琐的调试,才能最终投入使用。
除了这种通过快速问答来进行测试外,腾讯云TI平台还提供的批量测试功能——利用量化指标评估+人工主观观察模型在指定评测集上的效果。
如果发现模型效果不理想,可以先分析loss曲线,观察模型收敛情况,然后调节学习率等超参数。
更进一步的,可以分析badcase,定位出错误原因后,再去找一些相关数据做增强训练。
假如问题还是无法得到解决,或许就需要换一个基底模型,再尝试重新训练了。
鹅厂实战派,让技术更普惠
其中,技术底座升级保障模型基本盘稳定,平台能力升级保证模型工具用起来顺心又顺手。