浙江大学《大模型基础》大模型基础教材(PDF文件)

《大模型基础》全面介绍大语言模型(LLMs)的基础知识、架构设计、训练优化及应用实践。从语言模型的基础理论出发,深入探讨基于统计、RNN和Transformer的模型架构,重点分析大语言模型的架构类型(如Encoder-only、Encoder-Decoder、Decoder-only)及其代表模型(如BERT、T5、GPT系列)。书中详细讲解Prompt工程、参数高效微调、模型编辑和检索增强生成等关键技术,结合实际案例展示这些技术在不同场景中的应用。通过系统的学习和实践指导,帮助读者深入理解、有效应用大语言模型技术。

获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

语言模型基础

  • 基于统计方法的语言模型:介绍 n-gram 模型及其统计学原理(马尔可夫假设、极大似然估计)。
  • 基于RNN的语言模型:讲解循环神经网络(RNN)的结构、训练问题(梯度消失/爆炸)及其在语言建模中的应用。
  • 基于Transformer的语言模型:详细解析 Transformer 的架构(自注意力、FFN、层归一化、残差连接)及其在语言模型中的应用。
  • 语言模型的采样方法:包括贪心搜索、波束搜索、Top-K 采样、Top-P 采样、Temperature 机制等解码策略。
  • 语言模型的评测:介绍内在评测(如困惑度)和外在评测(如 BLEU、ROUGE、BERTScore、G-EVAL)。

大语言模型架构

  • 大数据 + 大模型 → 新智能:分析模型规模与数据规模对模型能力的影响,介绍 Scaling Laws(Kaplan-McCandlish、Chinchilla)。
  • 大语言模型架构概览:对比 Encoder-only、Encoder-Decoder、Decoder-only 三种主流架构的注意力机制与适用任务。
  • Encoder-only 架构:以 BERT 为代表,介绍其结构、预训练任务(MLM、NSP)及衍生模型(RoBERTa、ALBERT、ELECTRA)。
  • Encoder-Decoder 架构:以 T5 和 BART 为例,介绍其统一文本生成框架和多样化的预训练任务。
  • Decoder-only 架构:详细介绍 GPT 系列(GPT-1 到 GPT-4)和 LLaMA 系列(LLaMA1/2/3)的发展与特点。
  • 非Transformer架构:介绍状态空间模型(SSM)如 RWKV、Mamba,以及测试时训练(TTT)范式。

Prompt 工程

  • Prompt 工程简介:定义 Prompt 和 Prompt 工程,介绍分词与向量化过程(Tokenization、Embedding)。
  • 上下文学习(In-Context Learning, ICL):介绍零样本、单样本、少样本学习,示例选择策略(相似性、多样性)。
  • 思维链(Chain-of-Thought, CoT):讲解 CoT 的三种模式:按部就班(CoT、Zero-Shot CoT、Auto-CoT)、三思后行(ToT、GoT)、集思广益(Self-Consistency)。
  • Prompt 技巧:介绍包括规范 Prompt 编写、合理归纳提问、适时使用 CoT、善用心理暗示(角色扮演、情景代入)。
  • 相关应用:介绍涵盖基于大模型的智能体(Agent)、数据合成、Text-to-SQL、GPTS 等。

参数高效微调

  • 参数高效微调简介:介绍下游任务适配的两种主流方法——上下文学习和指令微调,引出参数高效微调(PEFT)技术,阐述在降低成本和提高效率方面的优势。
  • 参数附加方法:详细介绍通过在模型结构中附加新的、较小的可训练模块来实现高效微调的方法,包括加在输入(如Prompt-tuning)、加在模型(如Prefix-tuning和Adapter-tuning)和加在输出(如Proxy-tuning)的实现和优势。
  • 参数选择方法:介绍仅选择模型的一部分参数进行微调的方法,分为基于规则的方法(如BitFit)和基于学习的方法(如Child-tuning),通过选择性更新参数减少计算负担、提升模型性能。
  • 低秩适配方法:详细介绍通过低秩矩阵近似原始权重更新矩阵实现高效微调的方法,重点介绍LoRA及变体(如ReLoRA、AdaLoRA和DoRA),讨论LoRA的参数效率和任务泛化能力。
  • 实践与应用:介绍HF-PEFT框架的使用方法和相关技巧,展示PEFT技术在表格数据查询和表格数据分析中的应用案例,证明PEFT在提升大模型特定任务性能方面的有效性。

模型编辑

  • 模型编辑简介:介绍模型编辑的思想、定义和性质,阐述模型编辑在纠正大语言模型中的偏见、毒性和知识错误等方面的重要性。
  • 模型编辑经典方法:将模型编辑方法分为外部拓展法(如知识缓存法和附加参数法)和内部修改法(如元学习法和定位编辑法),介绍每类方法的代表性工作。
  • 附加参数法:T-Patcher:详细介绍T-Patcher方法,通过在模型中附加特定参数来实现对模型输出的精确控制,适用需要快速、精准修正模型特定知识点的场景。
  • 定位编辑法:ROME:详细介绍ROME方法,通过定位和修改模型内部特定层或神经元实现对模型输出的精确控制,适用需要深度修改模型内部知识结构的场景。
  • 模型编辑应用:介绍模型编辑在精准模型更新、保护被遗忘权和提升模型安全等方面的实际应用,展示模型编辑技术在不同场景中的应用潜能。

检索增强生成

  • 检索增强生成简介:介绍检索增强生成的背景和组成,阐述在自然语言处理任务中通过结合检索和生成来提升模型性能的重要性和应用场景。
  • 检索增强生成架构:介绍RAG架构分类、黑盒增强架构和白盒增强架构,对比分析不同架构的特点和适用场景。
  • 知识检索:介绍知识库构建、查询增强、检索器和检索效率增强的方法,及如何通过检索结果重排提升检索效果。
  • 生成增强:介绍何时增强、何处增强、多次增强和降本增效的方法,讨论生成增强在不同任务中的应用策略。
  • 实践与应用:介绍搭建简单RAG系统的步骤,展示RAG在典型应用中的案例,帮助读者理解和应用检索增强生成技术。

获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915