本文为博主24年《模式识别》课程作业，本人大模型初学者，如有错误欢迎指出。

摘要

随着人工智能技术的快速发展，大语言模型(Large Language Models, LLMs)作为自然语言处理领域的重要突破，展现出强大的语言理解和生成能力，在学术界和工业界引起广泛关注。本文系统地总结了大语言模型的发展现状、关键技术及其应用前景。首先，本文介绍了语言建模的历史背景和意义，详细的介绍了语言建模的四个发展阶段。接着，通过对GPT、LLaMA和PaLM等主流大语言模型系列的详细分析，阐述了它们在模型架构、训练方法和性能表现等方面的技术特点和创新之处。同时对其他具有代表性的大语言模型进行了综述，全面展现了当前大语言模型的技术发展全貌。其次，从问答系统、文本生成、机器翻译和文本分类等实际应用场景出发，深入探讨了大语言模型的具体应用方式、解决方案及效果，揭示了大语言模型在自然语言处理任务中的优势和局限性。最后，本文分析了大语言模型目前面临的主要挑战，并展望了未来的研究趋势，包括模型轻量化、安全性与道德性、架构创新等方向。通过对大语言模型的系统性研究，本综述不仅可为研究人员了解该领域的最新进展提供参考，也为大语言模型的实际应用和未来发展提供了个人浅薄的见解，对推动自然语言处理技术的进步具有重要意义。
关键词：大语言模型；自然语言处理；人工智能；GPT；LLaMA；PaLM
正文字数：约8400字

1 绪论

1.1 背景

20世纪50年代Shannon将信息论应用于人类语言，他测量了简单的n-gram语言模型预测或压缩自然语言文本的效果[1] 。从那时起，人类就一直在探索机器掌握语言智能的方法[2] [3] 。然而，语言是一个复杂、精密的人类表达系统，受语法规则的约束，机器难以自然地理解语言的含义并驾驭语言的交流能力。如何让机器像人类一样阅读、写作和沟通，一直是一个长期存在的研究挑战。
一直以来，语言建模（Language Modeling）是提高机器语言智能的主要方法之一。语言建模的主要目标是捕获语言中单词的概率分布，这使得模型能够生成新文本、完整句子并预测不同单词序列的可能性。回顾语言模型的发展历史，人们将其分为以下四个阶段：
（1）统计语言模型（Statistical Language Models, SLM）：SLM[4-6] 是基于 20 世纪 90 年代兴起的统计学习方法而开发的。其基本思想是基于马尔可夫假设构建单词预测模型，例如根据最近的上下文预测下一个单词。最初，统计语言模型主要用于辅助一些特定任务（如检索或语音任务），其预测或估计的概率可以提高任务特定方法的性能。这个阶段主要采用n-gram、隐马尔可夫模型等统计语言建模方法，通过测量自然语言文本的信息熵，探索如何对自然语言进行有效的预测和压缩。
（2）神经语言模型（Neural Language Models, NLM）：随着深度学习技术的发展，神经网络开始被应用于语言建模任务中。NLM通过将单词映射到低维连续向量来处理数据稀疏性，并根据单词的聚合来预测下一个单词。使用神经网络嵌入其后续单词的向量。NLM学习到的嵌入向量定义了一个隐藏空间，其中向量之间的语义相似性可以很容易地用它们的距离来表示。这一时期典型的代表工作包括Word2Vec等基于词嵌入的方法[7] ，以及RNNLM[8] 、LSTM[9] 和GRU[10] 等基于循环神经网络和前馈网络的模型。
（3）预训练语言模型（Pre-trained language models, PLM）：PLM阶段始于ELMo[11] 的提出，ELMo通过首先预训练biLSTM网络，来捕获上下文感知的单词表示，然后根据特定的下游对biLSTM网络进行微调任务。PLM的核心思想是在大规模文本语料上进行模型的预训练，学习到丰富的语言表征，然后再针对特定任务进行微调，从而在各种自然语言处理任务中展现出强大的能力。这一时期代表性工作包括BERT、GPT等[12] [13] 。
（4）大语言模型（Large Language Models, LLM）：研究人员发现，扩展PLM的模型大小通常会提高下游任务的模型能力，即遵循缩放定律（Scaling law）[14] ，并且随着大小的增加，模型在复杂任务上表现出惊人的能力，被称为涌现能力（emergent abilitise）[15] 。如今，越来越多的研究者向着更大的模型探索，例如175B参数大小的GPT-3和540B参数的PaLM[16] ，寻找缩放定律的基线。LLMs的出现进一步扩展了语言模型的能力，不仅可用于自然语言处理，也可作为通用任务解决器。这些超大型模型在预训练和微调的基础上，进一步增加了模型参数和训练数据，展现出了更加强大的语言理解、知识推理和任务求解能力。这种从单纯的语言建模到复杂任务解决的进化，是一个重要的科学思维跃迁。
从统计语言模型到预训练语言模型再到如今的大语言模型，这个发展历程体现了语言建模能力的不断提升，是理解人工智能发展方向的关键。

1.2 困难与挑战

当前LLM正处于高速发展的时期，但依然面临一些关键挑战和困难，主要包括几个方面。
首先，训练效率与资源消耗问题，训练大规模LLM需要大量的计算资源、数据和时间，能耗巨大。这使得训练成本高昂，且仅有少数科技巨头和机构有能力进行模型训练。如何提高硬件（如GPU、TPU）的算力瓶颈和并行计算效率，以及如何在计算资源有限的情况下高效训练大模型，是解决该问题的可行方向。
其次，数据耗尽与质量问题，LLM需要依赖大规模文本数据进行训练，但训练数据通常来自互联网，存在偏见、不准确性，甚至不安全内容。同时，当前高质量的真实世界数据正在逐渐耗尽，近期有研究估计人类产生的公共文本大约有300万亿个词元，照目前趋势继续下去，语言模型将在2026年至2032年间耗尽这些资源[17] 。因此，如何筛选、清洗数据集以减少模型生成错误和有害内容，更高效的利用现有数据集训练，得到了广泛的关注。
最后，还面临着模型可解释性的问题，大语言模型被称为“黑箱”，用户很难理解模型为什么生成特定的输出，这在高风险领域（如医学、法律）中难以被信任。提升模型的可解释性，使其能够被人类理解、验证与信赖，有助于LLM得到更广泛的应用。
除了以上所述，LLM还面临着其他问题，例如幻觉问题、安全性、价值观对齐、环保等，作为一个新兴事物，我们应该有信心和耐心期待有一天，这些问题能够得到很好的缓解或解决。

1.3 贡献

目前，LLM的发展日新月异，对LLM进行全面且系统的调研报告具有重要的意义，有助于我们深入理解LLM技术的脉络和发展动力，推动大语言模型的健康发展。
第二部分详细介绍了LLM的最新技术，重点关注三个系列：GPT、LLaMA 和PaLM，除此以外还有其他代表性模型。第三部分总结了LLM在多种领域的实际作用，详细介绍了每一项应用的问题定义、解决难点以及LLM的解决方式与效果。第四部分对于本文工作进行了总结。第五部分总结了LLM面临的挑战和未来的研究趋势。

2 大语言模型介绍

大型语言模型主要是指基于Transformer的PLM，包含数十到数千亿个参数。与PLM相比，LLM不仅模型规模更大，而且表现出更强的语言理解和生成能力以及较小规模模型所不具备的涌现能力。从2019年以来，LLM的发布呈现出井喷式的趋势，各大企业和高校发布自家大模型。如图 1所示，展示了LLM领域从2019年到2024年各个模型的发展历程、主要模型及其所属机构，同时标出了是否公开可用。

由于LLM众多，且技术基础和应用方向广泛难以分类，考虑到使用的广泛度和知名度，GPT、LLaMA和PaLM三个系列对于LLM领域的贡献不可忽视，因此我们首先回顾GPT、LLaMA和PaLM三个系列，接着再介绍一些具有代表性的LLM。

2.1 GPT系列

GPT的诞生离不开一项开创性的工作，即2017年Vaswani等人提出的Transformer[19] 架构。Transformer架构基于自注意力机制，使用了Seq2Seq任务中常用的结构，即包含Encoder和Decoder，结构如图 2所示。Transformer不同于RNN的串行化处理，它实现了并行化和高效处理远程依赖关系，使模型能够考虑句子或文档的整个上下文，从而实现真正的上下文理解[20] 。基于 Transformer的模型通常在大量文本语料库上进行预训练，可以生成连贯且上下文相关的文本，彻底改变智能聊天、文本摘要和语言翻译等应用程序。因此，它为GPT系列和BERT等模型的诞生奠定了重要基础。

GPT的全称是Generative Pre-trained Transformers，是由OpenAI开发的一系列结构为Decoder-Only、基于Transformer的语言模型。该系列包括GPT-1、GPT-2、GPT-3、InstrucGPT、ChatGPT、GPT-4、CODEX和WebGPT。这里面只有早期的模型（例如GPT-1和GPT-2）是开源的，而较新发布的模型（例如GPT-3和GPT-4）都是闭源的，只能通过API访问。由于篇幅原因，本文只介绍主要的几个模型。
GPT-1是2018年由OpenAI发布的一个具有里程碑意义的自然语言处理模型[21] 。它采用了Transformer架构，通过在大规模无标注文本数据上进行自监督的预训练，学习到强大的语言表征能力。这种预训练后再针对特定任务进行微调的混合训练策略，使得GPT-1在各种自然语言任务上都能取得出色的表现。GPT-1的发布标志着Transformer模型在自然语言处理领域的突破性应用，为后续更强大的GPT模型奠定了基础。尽管GPT-1自身存在一些局限性,但它为语言模型的未来发展指明了方向，之后发布的每个版本都在架构和训练数据集规模上进行了改进，并在各种语言任务上取得了更好的性能。
GPT-2[22] 模型遵循GPT-1的模型设计，但在结构上有一些修改，如图 3所示，具体来说GPT-2将层归一化移至每个子块的输入，在最终自注意力块之后添加额外的层归一化，并修改初始化以考虑通过残差路径上的累积和缩放残差层的权重。同时，GPT-2还在词汇量、上下文窗口、模型参数和训练数据集等规模维度做了增大。除此以外，不得不提的GPT-1中微调阶段是使用有标记数据有监督地学习，而GPT-2中换成了无监督方式来微调适应下游任务，可以理解为GPT-2对概率\ p\left(output\ \right|\ input,task)进行建模，以追求更具通用性的语言模型。

GPT-3[23] 于2020年发布，是一个拥有175B个参数的预训练自回归语言模型。GPT-3被广泛认为是第一个LLM，因为它不仅比以前的PLM大得多，而且还首次展示了以前较小的PLM中未观察到的涌现能力。在GPT-3的基础上，OpenAI针对不同的下游任务需求开发了WebGPT、CODEX、GPT-3.5 Turbo等模型。GPT-3正式引入了上下文学习（in-context learning, ICL）方法，它以少样本或零样本的方式训练LLM，指导LLM以自然语言文本的形式理解任务。GPT-3不仅在各种NLP任务上表现出色，而且在许多需要推理或领域适应能力的专门设计的任务上也表现出色，包括翻译、问答和完形填空任务，以及一些需要即时推理或领域适应的任务，例如解读单词、同义词替换、三位数算术等。总体而言，GPT-3可以被视为从PLM到LLM发展历程中的一个显着里程碑。
GPT-4[24] 于2023年3月发布，是目前GPT家族中最新、最强大的LLM，在此基础上进行针对性的功能优化和性能提升还诞生了GPT-4 Vision和GPT-4 Turbo。总体而言，GPT-4解决复杂任务的能力比GPT-3.5更强，在许多评估任务上表现出较大的性能提升，如图3所示，GPT-4在各种学术和专业测试中表现出人类的水准，同时相对GPT-3.5有了较大提升。此外，在技术报告中，OpenAI强调了如何安全地开发GPT-4，并应用了一些干预策略来缓解LLM可能出现的问题，例如幻觉、隐私和过度依赖。例如，他们引入了称为red teaming[25] 的机制来减少危害或有毒内容的产生。

2.2 LLaMA系列

LLaMA是由Meta公司推出的开源大语言模型，有三个主要版本。Llama的出现为开源自然语言处理（NLP）社区带来了重大突破，并且Meta一直通过分享最新的模型版本。得益于LLaMA的开源性质，许多企业与高校都在此基础上进行持续预训练或微调，开发出了庞大的LLaMA家族，如图 5所示，本文主要介绍Meta公司推出的三个主要版本。
LLaMA 1是由Meta AI发布的一个开放且高效的大型基础语言模型[26] ，共有7B、13B、33B、65B四种版本。不同于大部分LLM，LLaMA的训练数据集都是公开数据集，无任何定制数据集，保证了其工作与开源兼容和可复现，整个训练数据集在token化之后大约包含1.4T的token。LLaMA使用GPT-3的Transformer架构，并进行了如下的修改：
（1）为了增强训练稳定性，采用前置的RMSNorm[27] 作为层归一化方法。具体来说，就是对每个transformer子层的输入进行归一化，而不仅仅是输出。同时将归一化函数LayerNorm换成RMSNorm，设某个token 的特征向量为 x\in R，RMSNorm的计算如下所示，其中\gamma是可学习的缩放参数。

RMSNorm\left(x\right):\ \ \widehat{x_i}=\gamma\odot\ \frac{x_i\ }{RMS\left(x\right)}

RMS\left(X\right)=\sqrt{\frac{1}{d}\sum_{x_i\in x} x_i^2}

（2）为了提高模型性能，采用SwiGLU[28] 作为激活函数。ReLU和SwiGLU的区别如下：ReLU函数会将所有负数输入直接归零，而正数输入则保持不变；而SwiGLU函数含有一个可学习的参数β，能够调节函数的插值程度。随着β值的增大，SwiGLU的行为将逐渐接近ReLU。如图 6所示。

（3）为了更好地建模长序列数据，采用旋转式位置编码RoPE[29] 作为位置编码方法。尽管绝对位置编码已经解决了Transformer不区分顺序的问题，但它生成的位置编码是相互独立的，没有考虑到序列中单词之间的相对位置关系。然而实际情况是，位置上更接近的单词，往往具有更高的相关性。RoPE能够解决上述问题，它通过将序列中的每个位置转换成词嵌入的旋转变量来模拟单词间的相对位置关系。
LLaMA 2[30] 保留了LLaMA 1对原始Transformer架构所做的所有改动。在此基础上，还将处理上下文的长度从2048扩展至4096。同时，对于34B和70B这样的大型模型，LLaMA 2使用分组查询注意力取代了传统的多头注意力(MHA)。这是因为MHA需要大量内存来加载所有的注意力头的QKV矩阵，导致了Transformer的性能瓶颈。针对这一问题，有两种解决方案：
（1）多查询注意力（MQA）[31] ：过在注意力层使用单一的Key和Value heads，配合多个Query heads来大幅降低内存需求，如图 7(中)。但这种做法可能会降低模型的质量，并导致训练过程不稳定。
（2）分组查询注意力（GQA）[32] ：GQA将Query分为G组，每组共享一个Key和Value head，如图 7(右)。GQA可以认为是MHA和MQA的折中方案，既降低了内存需求，又大致保持了模型质量，提升推理速度。因此LLaMA 2中采用了GQA方法。

LLaMA 3是Meta在LLaMA模型系列中的最新版本，相比前代LLaMA模型进行了显著的功能和性能提升。在模型结构上相比于上一代变化不大。而在模型规模方面进一步增大，具体来说，LLaMA 3最大版本达到了405B参数，所有参数版本都使用了GQA。同时，训练的上下文序列长度从4096扩展到8192。在性能方面，LLaMA 3在诸多基准测试中都取得了优异表现，甚至在一些任务上超越了GPT-4、GPT-4o和Claude 3.5 Sonnet等知名的大型语言模型[1]。这表明LLaMA 3在自然语言理解、推理和生成等方面的能力已经达到了领先水平。总的来说，LLaMA 3无疑是一款功能强大且潜力巨大的大语言模型，在未来的自然语言处理研究和应用中将发挥重要作用。

2.3 PaLM系列

PaLM（Pathways Language Model）系列中，第一个PaLM模型于2022年4月由GooGle发布[33] ，它是一个具有540B参数大小且同样基于Transformer的大语言模型。该模型在由7800亿个标记组成的高质量文本语料库上进行预训练，其中包含了非常广泛的自然语言任务和用例。PaLM使用Pathways系统在6144 TPU v4芯片上进行预训练，从而实现跨多个TPU Pod的高效训练。PaLM通过在数百个语言理解和生成基准上实现最先进的几次学习结果，展示了扩展的持续优势。
为了进一步增强PaLM在特定场景下的表现，GooGle还针对该模型进行了医疗领域的微调,形成了Med-PaLM系列[34] [35] 。Med-PaLM采用了参数高效的指令微调方法，在回答医疗问题等任务上表现出色。
PaLM-2于2023年发布[36] ，与第一代PaLM相比，PaLM-2不仅具有更高的计算效率，还有更好的多语言、逻辑推理、代码生成能力。PaLM-2使用混合目标进行训练，通过对英语、多语言和推理任务的广泛评估，PaLM-2显着提高了不同模型大小的下游任务的模型性能，同时表现出比PaLM更快、更高效的推理能力。

2.4 其他代表性LLM

Gopher[37] 是由DeepMind于2021年提出的大型预训练语言模型，参数规模达2800亿。与同期模型相比，Gopher在自然语言理解、知识问答及文本生成等任务上表现出显著的优势，进一步验证了缩放定律的强大潜力。在数据方面，Gopher采用了经过精细筛选的高质量语料库，涵盖了书籍、网页内容、维基百科及新闻文本等多种来源，确保了模型的泛化能力和语言知识的丰富性。相较于以往的预训练语言模型，Gopher特别在长文本理解、语义分析及科学问答任务上展现出强大的表现，这在一定程度上归因于其大规模参数和高质量数据训练。此外，Gopher在152个基准任务上进行了全面评估，结果显示Gopher在大多数任务中都实现了最先进的性能。
BLOOM[38] 是由BigScience于2022年推出的大型开源语言模型，基于Transformer架构，其最大版本参数规模达到1760亿，与GPT-3处于同一水平，成为当时首个同规模且完全开源的大型语言模型。与传统单一语言模型不同，BLOOM在多语言能力上具有显著优势，支持46种自然语言和13种编程语言，其中包含英语、中文、法语、西班牙语及低资源语言，提升了跨语言任务中的泛化能力和表现。BLOOM的训练依托于Jean Zay超级计算机，并利用高效并行化技术完成了大规模预训练。此外，BLOOM的开发采用开放科学的协作模式，汇聚了来自全球超过1000名研究者的力量，体现了国际合作在大规模AI研究中的重要作用。
OPT（Open Pre-trained Transformer）[39] 是由Meta AI于2022年推出的开源预训练语言模型，旨在提供与GPT-3同等规模但更高效、更透明的替代方案。OPT采用经典的Transformer解码器架构，不同版本参数范围涵盖从125M到175B，满足不同计算资源条件下的研究需求。OPT在预训练过程中使用了大规模、高质量的语料库，包括书籍、网络文本和社交媒体数据，涵盖多个领域，确保模型在通用语言任务上的泛化能力。
除了上述介绍的模型外，还有非常多优秀且创新的LLM，但是由于篇幅限制无法仔细介绍，具体见图 1。

3 大语言模型应用

LLM在处理自然语言的任务中有广泛的用途，包括但不限于问答、文本生成、机器翻译、总结概要等。在本节中，致力于讨论当前LLM的主流应用场景。

3.1 问答系统

基于大语言模型（LLM）的问答（QA）系统旨在理解用户提出的自然语言问题，并从文本语料库中提取或生成答案。QA问题被定义为用户输入的自然语言查询，其目标是通过分析问题语义，从上下文中定位相关信息并生成准确响应[40] 。LLM通过在大规模语料库上的预训练，学习到丰富的语言知识与语义理解能力，而后通过QA标注数据集的微调，增强了从文本中提取答案和跨文档推理的能力。
LLM问答系统的作用原理包括问题解析与答案生成两个阶段。在解析阶段，模型理解用户查询的语义意图；在生成阶段，模型利用预训练知识和上下文文本综合生成答案。相较传统方法，LLM能够处理复杂问题，如多跳推理和语义消歧，并在查询模糊时生成澄清问题，提升交互效果。在基准数据集上的测试表明，基于LLM的QA系统在准确率和泛化能力上显著超越传统模型，被广泛应用于搜索引擎、语音助手和客户服务等场景。目前的研究重点在于提高模型的推理能力、可解释性和计算效率，以满足复杂任务和实际需求。

3.2 文本生成

文本生成是大型语言模型的一个有用应用，它可以自动生成用于各种目的的内容的过程，例如文章、博客、研究论文、社交媒体帖子、产品描述、源代码、电子邮件等等。
在文本生成过程中，LLM通过编码输入信息，利用其预训练过程中学到的知识生成相应的输出。生成过程不仅依赖于语言模型的理解能力，还涉及上下文推理，确保生成内容与输入的逻辑和语境一致。LLM在文本生成任务中能够处理多样化的主题和风格，生成的文本具有较高的流畅性和连贯性。相较于传统生成方法，LLM能在长篇生成、情感表达和多样化内容上展现更强的能力。

3.3 机器翻译

基于LLM的机器翻译系统通过自然语言处理技术，实现了高效、准确的跨语言翻译[41] [42] 。机器翻译任务的目标是将一种语言的文本转换为另一种语言，同时保持原文的语义、语法和上下文信息。LLM通过在大规模双语或多语料库上进行预训练，学习各语言之间的语义映射和语法结构，使得模型能够处理复杂的翻译任务。
在机器翻译过程中，LLM通过理解源语言的语义和结构，将其转化为目标语言。预训练过程中，模型学习到的语言知识帮助其生成流畅、自然的翻译结果。与传统基于规则或统计的方法相比，LLM能够更好地应对多义词、句法差异以及文化背景等挑战，提升了翻译的准确性和自然度。

3.4 文本分类

除了文本生成和翻译能力之外，LLM还具备出色的组织能力，例如基于预定义标签或主题的文本分类。文本分类任务通常包括情感分析、垃圾邮件检测、主题分类等，目标是通过分析文本内容，将其准确地分配到相应的类别。
在文本分类过程中，LLM首先对输入的文本进行编码，提取其中的语义特征和上下文信息。随后，模型利用这些信息将文本归类到最相关的标签或主题中。与传统的基于规则的分类方法相比，LLM能够自动学习文本中的复杂模式，识别出更加微妙的语义差异，从而提高分类的准确性。文本分类不仅能够处理结构化数据，还能应对各种语言变体、同义词和语境变化，使其在处理大规模非结构化数据时更加高效。
基于LLM的文本分类系统广泛应用于情感分析、垃圾邮件过滤、内容审核和客户反馈分析等领域，通过自动化分类过程，显著提升了数据管理和分析的效率[43] [44] 。当前，研究重点集中在提升模型在多领域、多语言环境下的分类能力以及优化计算效率，以应对不断增长的文本数据处理需求。

3.5 总结概要

总结概要旨在将冗长的文本或文档压缩为简洁且连贯的摘要，LLM的上下文处理机制可以很好的处理总结问题。LLM通过在大量文本数据上进行预训练，学习如何识别和概括信息，从而具备自动生成摘要的能力。
在总结过程中，LLM首先理解文本的结构和语义，识别出最重要的句子和段落。然后，模型将这些信息重组，生成简洁的摘要。与传统的提取式总结方法相比，LLM能够进行抽象式总结，不仅仅提取原文中的句子，还能重新表达核心观点，确保生成的摘要既简洁又信息全面。这种能力使得LLM能够高效处理长篇文档，帮助用户快速获取关键信息。
基于LLM的总结概要系统在新闻汇总、学术研究、法律审查等领域具有广泛应用，可以显著提高信息处理效率，节省时间和精力。此外，随着模型性能的提升，LLM生成的摘要质量不断提高，能够更精准地捕捉文本中的关键信息，成为个人和企业进行信息筛选和知识管理的重要工具。

4 总结

在本次综述报告中，首先对语言模型的发展历史进行了简单介绍，从历史的角度来看LLM的爆发并不是偶然，而是长期的科研积累和科技的高速发展。接着，本文对当前主流的LLM模型以及框架进行了总结概述，包括GPT、LLaMA和PaLM三个大系列，以及在此之外具有代表性的LLM。我们不仅介绍了它们的基本原理，还突出了它们各自的特点以及适用的领域。在第3部分中，介绍了LLM的主流用途，主要聚焦在信息处理方面，因为这是LLM应用于其它场景的基础能力。
完成这篇报告后，我最大的感受就是语言建模是LLM最核心的思想。语言可以认为是人类进化历史中的重要发明，它极大的推动了人类智能的发展。同样，让机器理解人类的语言，才能让机器真正明白人类智能的内核，具备语言建模的能力后，模型才能更好的学习过去几十甚至上千年的数据要素，实现真正的人工智能。

5 研究趋势

本部分主要介绍尚未较好地解决的挑战，以及个人认为未来有前景的工作方向。

5.1 更小、更高效

由于缩放定律和涌现能力的发现，模型的规模沿着“越大越好”的趋势不断发展，并且得到了惊人的效果，不断有新的模型发布，在基准测试中获得了更好的准确性和性能。然而，这些大型模型在多个方面成本高昂且效率低下，无论是预训练还是推理都对资源有着极其高昂的需求，并且不利于环境保护，这显然不利于LLM得到更加广泛的普及。如今越来越多的人开始研究模型优化，包括模型量化、知识蒸馏和剪枝等技术[45-47]，以此来得到更高效的小模型，而如何确保模型的性能在这一过程中不被损害是一个非常大的挑战。

5.2 安全和道德

LLM的知识来源于训练数据，因此它可能会延续训练数据中固有的偏见，导致输出存在偏见或歧视性，如前所述。挑战在于识别和减轻此类偏见，以确保不同用户群体和学科之间得到公平和公正的待遇。

5.3 更广泛的架构

得益于其可扩展性和有效性的特点，Transformer已成为构建LLM事实上的架构。然而，Transformer也面临训练成本高、推理速度慢的问题。大规模预训练的改进模型架构值得关注，不仅包括模型架构的优化，还包括系统级或硬件级优化。另外，大量工作都一致的基于Transformer来构建模型，这限制了对可能的替代模型进行更广泛、多样化的探索。

参考文献

[1] Shannon C E. Prediction and entropy of printed English[J]. Bell system technical journal, 1951, 30(1): 50-64.

[2] Jones K S. Natural language processing: a historical review[J]. Current issues in computational linguistics: in honour of Don Walker, 1994: 3-16.

[3] Turing A M. Computing machinery and intelligence[M]. Springer Netherlands, 2009.

[4] Jelinek F. Statistical methods for speech recognition[M]. MIT press, 1998.

[5] Rosenfeld R. Two decades of statistical language modeling: Where do we go from here?[J]. Proceedings of the IEEE, 2000, 88(8): 1270-1278.

[6] Stolcke A. SRILM-an extensible language modeling toolkit[C]//Interspeech. 2002, 2002: 2002.

[7] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in neural information processing systems, 2013, 26.

[8] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Interspeech. 2010, 2(3): 1045-1048.

[9] Sutskever I. Sequence to Sequence Learning with Neural Networks[J]. arXiv preprint arXiv:1409.3215, 2014.

[10] Cho K. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.

[11] Peters, M.E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep Contextualized Word Representations. ArXiv, abs/1802.05365.

[12] Devlin J. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[13] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.

[14] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

[15] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.

[16] Chowdhery A, Narang S, Devlin J, et al. Palm: Scaling language modeling with pathways[J]. Journal of Machine Learning Research, 2023, 24(240): 1-113.

[17] Villalobos P, Ho A, Sevilla J, et al. Will we run out of data? Limits of LLM scaling based on human-generated data[J]. arXiv preprint arXiv:2211.04325, 2024: 13-29.

[18] Zhao W X, Zhou K, Li J, et al. A survey of large language models[J]. arXiv preprint arXiv:2303.18223, 2023.

[19] Vaswani A. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017.

[20] Liu Q, Kusner M J, Blunsom P. A survey on contextual embeddings[J]. arXiv preprint arXiv:2003.07278, 2020.

[21] Radford A. Improving language understanding by generative pre-training[J]. 2018.

[22] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.

[23] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.

[24] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint arXiv:2303.08774, 2023.

[25] Ganguli D, Lovitt L, Kernion J, et al. Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned[J]. arXiv preprint arXiv:2209.07858, 2022.

[26] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.

[27] Zhang B, Sennrich R. Root mean square layer normalization[J]. Advances in Neural Information Processing Systems, 2019, 32.

[28] Shazeer N. Glu variants improve transformer[J]. arXiv preprint arXiv:2002.05202, 2020.

[29] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063.

[30] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[J]. arXiv preprint arXiv:2307.09288, 2023.

[31] Shazeer N. Fast transformer decoding: One write-head is all you need[J]. arXiv preprint arXiv:1911.02150, 2019.

[32] Ainslie J, Lee-Thorp J, de Jong M, et al. Gqa: Training generalized multi-query transformer models from multi-head checkpoints[J]. arXiv preprint arXiv:2305.13245, 2023.

[33] Chowdhery A, Narang S, Devlin J, et al. Palm: Scaling language modeling with pathways[J]. Journal of Machine Learning Research, 2023, 24(240): 1-113.

[34] Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.

[35] Singhal K, Tu T, Gottweis J, et al. Towards expert-level medical question answering with large language models[J]. arXiv preprint arXiv:2305.09617, 2023.

[36] Anil R, Dai A M, Firat O, et al. Palm 2 technical report[J]. arXiv preprint arXiv:2305.10403, 2023.

[37] Rae J W, Borgeaud S, Cai T, et al. Scaling language models: Methods, analysis & insights from training gopher[J]. arXiv preprint arXiv:2112.11446, 2021.

[38] Le Scao T, Fan A, Akiki C, et al. Bloom: A 176b-parameter open-access multilingual language model[J]. 2023.

[39] Zhang S, Roller S, Goyal N, et al. Opt: Open pre-trained transformer language models[J]. arXiv preprint arXiv:2205.01068, 2022.

[40] Su D, Xu Y, Winata G I, et al. Generalizing question answering system with pre-trained language model fine-tuning[C]//Proceedings of the 2nd workshop on machine reading for question answering. 2019: 203-211.

[41] Wang L, Lyu C, Ji T, et al. Document-level machine translation with large language models[J]. arXiv preprint arXiv:2304.02210, 2023.

[42] Zhang B, Haddow B, Birch A. Prompting large language model for machine translation: A case study[C]//International Conference on Machine Learning. PMLR, 2023: 41092-41110.

[43] Sun X, Li X, Li J, et al. Text classification via large language models[J]. arXiv preprint arXiv:2305.08377, 2023.

[44] Zhang W, Deng Y, Liu B, et al. Sentiment analysis in the era of large language models: A reality check[J]. arXiv preprint arXiv:2305.15005, 2023.

[45] Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models[J]. arXiv preprint arXiv:2106.09685, 2021.

[46] Lin J, Zhu L, Chen W M, et al. On-device training under 256kb memory[J]. Advances in Neural Information Processing Systems, 2022, 35: 22941-22954.

[47] Frantar E, Ashkboos S, Hoefler T, et al. Gptq: Accurate post-training quantization for generative pre-trained transformers[J]. arXiv preprint arXiv:2210.17323, 2022.

大语言模型及其应用

摘要