方案中心-AIGC | 大模型发展概况

一、大模型使弱人工智能向强人工智能迈出坚定一步

回顾2022年，最令人津津乐道的AIGC作品当属ChatGPT，是一款能参加高考，还能获得中位数水平考生得分的应用。值得注意的是，其模型的参数量达到了1750亿，2020年为了获得其前身（通用预训练语言大模型GPT-3），投入高达1200万美元，持续展开各种形式的训练，甚至人类反馈的强化学习微调。 AI 大模型研究的热潮，也使得大模型成为几乎全球所有头部AI公司的追逐目标，算力企业、算法企业、数据企业都在展开新一轮“军备竞赛”。Encoder和Decoder之争仍在持续，企业需要通过设计先进的算法、整合尽可能多的数据、汇聚大量算力、集约化的训练大模型。这也归功于使用了自监督学习方法，一方面可以大大减少工作量，另一方面在长尾任务中也能取得更好表现。

二、大模型也伴随大代价

目前预训练大模型的训练效率低、算力开销大。通用视觉大模型目前还处于探索阶段，这可能是由于想让庞大的参数拟合，就需要同等超大规模的训练集。GPT-3的预训练采用了45TB的数据（大部分为网络语料），与可以利用巨大天然开源语料的语言模型预训练过程不同，视觉语言任务需要高质量的图像描述，而这些资源很难免费获得。预训练大模型的参数量大，也导致了运行开销大，部署运维困难。现在大模型研发人员的一大技术难题是，模型扩展到千亿及以上参数规模时，将很难放在一台机器上。如果光是使用分布式架构，一方面在代码实现上比较复杂，另一方面由于前向和反向传播FLOPs过高，模型的训练效率会下降，训练时长则会相应增加，训练完成的模型在运行时也会产生较高的费用。目前主流的研究方向也是大体分为两派：MoE和Dense持续热烈的讨论。

三、大模型的未来蓝图

如何让大模型获得持续学习迭代的能力，从而降低训练成本；能否将知识图谱与大模型结合，引入额外先验知识；大模型不可避免带来的各类隐私、公平性和伦理问题该如何治理。这些热门话题，都是我们在期待大模型的优越表现的同时，又热切盼望及时解答的疑问。大模型未来是否会为了提升运行速度而“芯片化”；大模型标准化体系的建立是否会帮助大模型迅速发展落地，正面影响人们生活的方方面面；大模型是否真的是通往强人工智能的合理路径；如何寻求一条具有中国特色的大模型发展道路；这些都是我们对大模型的美好畅想。想了解更多关于ChatGPT 以及AIGC的原创内容吗？欢迎您持续关注“2023全球人工智能开发者先锋大会”，活动将精心策划一场关于生成式人工智能的前沿主题论坛，核心聚焦交互方向、ChatGPT、AIGC的产业发展路径以及AIGC开放平台创作大赛，并将隆重邀请相关领域的咖位嘉宾，向您呈现精彩纷呈、具有前瞻性视野的AIGC趋势性内容。

—— 2023全球人工智能开发者先锋大会 ——

由世界人工智能大会组委会、上海市经济和信息化委员会、上海市人才工作领导小组办公室、中国（上海）自由贸易试验区临港新片区管理委员会共同指导，上海市人工智能行业协会和上海临港经济发展（集团）有限公司共同主办的2023全球人工智能开发者先锋大会（GAIDC）将于2023年2月25日—26日在上海举行。

GAIDC始于WAIC上海人工智能开发者大会，历经三年发展沉淀，全面迭代升级。本届大会主题为“向光而行的AI开发者”，以AI开发者为核心，为AI开发者带来产业之光、科技之光、未来之光。

大会在上海最早迎接日出的地方——临港，通过论坛、团聚、学习赛、项目路演、人才交流、书友会、互动体验等多个板块，聚焦专业前沿内容，联合超过20家国内外开源组织、开发者社区，力邀全球技术大牛、导师大咖和AI开发者共同线下参与，同时与上千万专业开发者线上互动交流，营造自由活泼氛围。

大会将通过会中及会后全年持续运营人工智能开发者生态，让人才引领科技创新，创新吸引金融助力，金融推动产业发展，产业促进人才成长。