Skip to content
Go back

大语言模型综述:GPT、LLaMA 和 PaLM 模型的发展

Published:  at  04:00 PM

本文是对论文《Large language models: a survey》的阅读笔记和个人理解。这篇综述详细回顾了一些最具代表性的大语言模型,包括三个流行的大语言模型家族(GPT、LLaMA、PaLM),讨论了它们的特点、贡献和局限性,并概述了用于构建和增强大语言模型的相关技术。

目录

1. 如何构建大模型

1.1 数据清理

数据清理是大模型训练的基础,主要包括:

1.2 分词化(Tokenization)

分词化是将文本转化为模型可处理的 token 序列的过程。常用方法有 BPE、WordPiece、SentencePiece 等。

1.3 位置嵌入(Positional Embedding)

1.4 LLM 架构

大模型的架构设计直接影响其能力和效率。主流架构包括 Transformer 及其变体。

1.5 模型预训练

1.6 微调和指令调优(Fine-tuning、Instruction-tuning)

1.7 模型对齐(Alignment)

1.8 解码策略

1.9 推理、压缩与量化微调

1.10 幻觉问题与评估

例如,更大的模型和较低的 temperature 设置通常表现更好。(Minaee 等, 2025, p. 23)

2. 如何使用大模型——提示词工程

2.1 思维链(Chain of Thought, CoT)

2.2 思维树(Tree of Thought, ToT)

2.3 自洽性(Self-Consistency)

2.4 反思(Reflection)

2.5 专家提示(Expert Prompting)

2.6 链(Chains)

2.7 规则(Rails)

2.8 自动提示工程(APE)

3. 如何扩展大模型——RAG

检索增强生成(Retrieval-Augmented Generation, RAG)

自动多步推理和工具使用(ART)

3.1 Agent 中的提示词工程

4. 大模型 LLMs 的评估数据集

4.1 基本任务的数据集:语言建模、理解、生成

4.2 指令跟随、CoT 推理等新兴能力的数据集

5. 三种类型的架构

5.1 Encoder-only

5.2 Decoder-only

Decoder-Only:这类模型在每个阶段,对于任何单词,注意力层只能访问该单词之前的内容,属于自回归模型。

5.3 Encoder-Decoder


Suggest Changes
Share this post on:

Previous Post
Git Commit Message 开发规范
Next Post
Mac 终端美化及插件安装