联系方式:18253166086 (微信同步,微信群交流)

一、大模型概念

目前,国内外公司纷纷发布大模型,涉及通用大模型、行业大模型、垂直大模型与专属大模型,一些超强模型服务背后是千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域的一大步,能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等,催生出新的场景和产业模式,快速推动产业智能化应用落地。

 

二、技术演进路线

随着计算能力的增强和大数据的普及,大模型的技术演进经历了多个阶段,不断推动了人工智能领域的发展。以下是大模型技术演进的主要路线:

 

 

 

1)深度学习(2014年前)

最早期的深度学习模型包括简单的深度神经网络,但由于计算资源有限和梯度消失问题训练深层网络存在困难,限制了模型的深度和性能。2012年后使用更深的卷积神经网络结构和残差学习解决了梯度消失问题,推动了模型的深度和性能提升。VGG、GoogLeNet和ResNet等模型相继涌现。

2)迁移学习和预训练(2014年后)

预训练技术提高了模型的泛化性能,加速了新任务上的学习过程。开始使用预训练模型,如Word2Vec、GPT(Generative Pre-trained Transformer)等,将先验知识迁移到新任务中。

3)大模型萌芽和硬件加速(2017年后)

2017Transformer模型被提出Transformer是一种基于自注意力机制(Self-Attention)的深度学习模型,摒弃了序列数据的顺序依赖性,通过注意力机制实现了对输入序列的全局信息捕捉,允许模型在处理每个输入时分配不同的注意力权重,从而更好地捕捉长距离依赖关系。并且使用位置编码用于为输入序列中的每个位置提供位置信息,以帮助模型理解序列的相对顺序。

Transformer模型的引入改变了深度学习模型处理序列数据的方式,为大模型的发展提供了理论和技术基础。其平行计算、全局信息捕捉和适应多模态数据的优势使得大模型能够更好地应对复杂任务和大规模数据,因此成为众多大模型的基础架构。

利用大规模数据集和分布式训练,结合硬件加速如GPU和TPU,实现了更大规模和更强大的模型。BERT、GPT-3等大规模模型在自然语言处理和其他领域取得显著成就。

4)大模型井喷(2022年后)

模型具有更强的自主学习和泛化能力,通过自监督和元学习等技术实现更快速的学习和适应。自监督学习使模型能够从未标注的数据中学到有效的表示,元学习使模型能够在少量样本上实现快速学习。

2022年底,OpenAI推出了ChatGPT,这是一种专为自然语言处理和对话生成而设计的对话语言模型拉响了大模型构建的红色警报,学界和企业界纷纷迅速跟进启动研制自己的大模型,开启通用人工智能(AGI)时代。

同时随着GPT-4的发布结合图像、文本、语音等多源信息的多模态大模型也在蓬勃发展中。

三、国内外发展情况

 

2017年,Transformer模型的问世带来神经网络结构的一次变革,为大模型打下了重要的技术基础。

2018年,OpenAI发布GPT-1模型,标志着预训练模型在自然语言处理领域的兴起。谷歌发布了BERT系列模型,在众多的下游任务上实现了霸榜。GPT1其实是早于BERT发布的,不过它在学术任务的表现上不如BERT,所以当时名气没有BERT大。

2019年,GPT-2是OpenAI 在2019 年推出的第二代生成式预训练模型。GPT-2与GPT-1架构相同,但是使用了更大的数据集WebText,大约有 40 GB 的文本数据、800 万个文档,并为模型添加了更多参数(达到15 亿个参数),来提高模型的准确性。

2020年,OpenAI发布GPT-3模型,具有1750亿个参数,带来了语言生成能力的突破,在zero-shot零样本的学习上表现经验,zero-shot是指模型在未见过的任务进行推理的能力。

2021年,Google推出Switch Transformer,将参数量从GPT-3的1750亿拉高到1.6万亿。同年国内华为、百度、智源等公司也陆续退出自己的大模型产品。

2022年,OpenAI发布了GPT-3.5,并基于此打造ChatGPT交互大模型,这预示着以生成式大模型为代表的人工智能技术的重大突破。Midjourney、Stable Diffusion等文生图模型也相继问世。智谱发布高精度千亿参数的双语大语言模型GLM-130B。

2023年,OpenAI发布了GPT4多模态大模型,能够处理更长的上下文窗口,具备多模态理解能力。国内也陷入了百模大战,文心一言、通义千问、星火认知等大模型相继问世。当前,大模型正快速向千行百业应用拓展,开启通用人工智能的新篇章。

ChatGPT自22年11月底推出后爆红至今,是当前AI领域最受关注的产品。18年至今,谷歌、OpenAI、英伟达、 和微软等大型科技企业纷纷推出自研大模型技术,预训练大模型逐渐成为自然语言处理领域的研究主流。截至23年7月底,大模型发布数量国外累计达138个,国内130个

国内外模型

参数量

公司、机构

发布日期

GPT-1

1.1亿

OpenAI

2018

GPT-2

15亿

OpenAI

2019

GPT-3

1750亿

OpenAI

2020/5

GPT-4

1.8万亿

OpenAI

2023/3

文心一言

2600亿

百度

2023/3

通义千问

千亿级

阿里巴巴

2023/4

星火

1700亿

科大讯飞

2023/5

ChatGLM2

1300亿

清华智谱

2023/6

国内企业也在积极研发大模型技术,总体来说与GPT 11月份版本存在明显差距。以科大讯飞为例,该公司在23年5月、8月和10月接连发布星火认知大模型三个版本。其中10月版本大模型宣称与GPT-3.5进行对标。百度文心大模型10月份版本宣称与GPT-4进行对标。但是,文心一言最多支持8k Token(4千汉字)输入,而ChatGPT最多支持128k Token(6万汉字)输入,存在16倍差距。

四、系统功能基本要求
    大模型正在全面进行积极的试点和探索,初步形成赋能生活、生产的核心方式与产品形态,已形成3类主要赋能方式,赋能4类模型产品形态。参赛选手可以选用任何一种形式进行开发。

1.基于ChatGPT、星火大模型等通用底座直接开发智能客服等应用,大模型API调用或者软件方案;

2.基于通用底座进行场景化适配调优或形成外挂插件工具,将大模型融入到成熟产品如福将大模型融入TwinCAT XAE客户端,实现基于对话辅助编程;工业管理软件企业Authentise推出插件,用户可查询最大的增材制造知识库浙大开发用于表格处理的TableGPT。

3.面向具体任务的针对性开发,参赛选手可以自己定于开发任务,并完成即可,鼓励基于产业应用开发,如工业大模型、教育大模型、金融大模型等。
   五、系统设计要求
    1.要求建立完整智慧系统,展示和控制方式采用B/S方式或者手机终端均可
    2开发环境不限。

Copyright © 2020-2023 山东省大学生软件设计大赛 版权所有