0%

9. 新的模型架构

通过前文的学习,我们知道神经预言模型的核心借口是一个将 token 序列映射到上下文嵌入的编码器: \[ \text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}] \stackrel{\phi}{\Rightarrow} \left[\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1}, \binom{0}{-1} \right]. \]

Read more »

7. 模型训练

上一章讨论了大语言模型 Transformer 的模型结构,本章节将讨论如何训练大语言模型,主要包含 目标函数优化算法 两部分。

Read more »

6. 模型架构

6.1 大模型之模型概括

语言模型可以被看做是一个黑箱,当前大规模语言模型的能力在于给定一个基于自身需求的prompt 就可以生成符合需求的结果。

Read more »

4. 大模型的数据

在之前的内容,我们讨论了大型语言模型的行为(能力和损害),本节将开始讨论模型的构建。我们知道,任何机器学习方法的起点都是训练数据。

Read more »

3. 大模型的有害性

3.1 Introduction

本次内容主要探讨大型语言模型的有害性(危害),常见的几种危害包括:

  • 性能差异
  • 社会偏见和刻板印象
  • 有害信息
  • 虚假信息
Read more »

2. 大预言模型的能力

在本次课程中,我们将深入探讨 GPT-3 大预言模型的能力。我们的研究主要是基于 GPT-3论文 中的基准测试,这些测试包括:
  • 标准的自然语言处理(NLP)基准测试,例如问题回答;
  • 一些特殊的一次性演示,例如在句子中使用新词。
Read more »

1. Introduction

本笔记是 DataWhale 2023年 09简单学点大模型 项目的学习笔记。原项目地址:Clike here

1.1 语言模型 (Language Model, LM)

1.1.1 定义

语言模型是对令牌序列 token 的概率分布。假设有一个令牌集的词汇表 \(V\)。语言模型 \(p\) 为每个令牌序列 \(x_{1},...,x_{L} \in V\)分配一个概率(0和1之间):

Read more »

0. Preface

Most folks are as happy as they make up their minds to be. — Abraham Lincoln

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第三篇—— 多层感知机。

本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。

Read more »

0. Preface

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第二篇—— 线性回归和Softmax回归。

本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。

Read more »

0. Preface

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第一篇—— 初识深度学习和预备知识整理。

本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。

Read more »