Large-lm-8-Adaptation

Posted on 2023-09-19 In DataWhale , Large LM
Symbols count in article: 8.4k Reading time ≈ 8 mins.

10. 大模型之 Adaptation

使用语言模型（例如在上下文学习中）通过仅给出提示，我们已经能够执行一些任务。然而，提示方法并不适用于全部的下游任务，如自然语言推理 NLI、问题回答 QA、将网络表格转换为文本、解析电子健康记录 EHR 等。

Large-lm-7-Mixed-Framework

Posted on 2023-09-16 Edited on 2023-09-19 In DataWhale , Large LM
Symbols count in article: 13k Reading time ≈ 11 mins.

9. 新的模型架构

通过前文的学习，我们知道神经预言模型的核心借口是一个将 token 序列映射到上下文嵌入的编码器：

\text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}] \stackrel{\phi}{\Rightarrow} \left[\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1}, \binom{0}{-1} \right].

Large-lm-6-Training

Posted on 2023-09-16 In DataWhale , Large LM
Symbols count in article: 11k Reading time ≈ 10 mins.

7. 模型训练

上一章讨论了大语言模型 Transformer 的模型结构，本章节将讨论如何训练大语言模型，主要包含 目标函数 和 优化算法 两部分。

Large-lm-5-Framework

Posted on 2023-09-16 In DataWhale , Large LM
Symbols count in article: 8k Reading time ≈ 7 mins.

6. 模型架构

6.1 大模型之模型概括

语言模型可以被看做是一个黑箱，当前大规模语言模型的能力在于给定一个基于自身需求的prompt 就可以生成符合需求的结果。

Large-lm-4-Data-and-Law

Posted on 2023-09-13 Edited on 2023-09-16 In DataWhale , Large LM
Symbols count in article: 4.2k Reading time ≈ 4 mins.

4. 大模型的数据

在之前的内容，我们讨论了大型语言模型的行为（能力和损害），本节将开始讨论模型的构建。我们知道，任何机器学习方法的起点都是训练数据。

Large-lm-3-Shortcomings

Posted on 2023-09-12 Edited on 2023-09-13 In DataWhale , Large LM
Symbols count in article: 4.9k Reading time ≈ 4 mins.

3. 大模型的有害性

3.1 Introduction

本次内容主要探讨大型语言模型的有害性（危害），常见的几种危害包括:

性能差异
社会偏见和刻板印象
有害信息
虚假信息

Large-lm-2-Capacity

Posted on 2023-09-12 In DataWhale , Large LM
Symbols count in article: 11k Reading time ≈ 10 mins.

2. 大预言模型的能力

在本次课程中，我们将深入探讨 GPT-3 大预言模型的能力。我们的研究主要是基于 GPT-3论文中的基准测试，这些测试包括：

标准的自然语言处理（NLP）基准测试，例如问题回答；
一些特殊的一次性演示，例如在句子中使用新词。

Large-lm-1-Introduction

Posted on 2023-09-11 In DataWhale , Large LM
Symbols count in article: 16k Reading time ≈ 14 mins.

1. Introduction

本笔记是 DataWhale 2023年 09 月 简单学点大模型 项目的学习笔记。原项目地址：Clike here。

1.1 语言模型 (Language Model, LM)

1.1.1 定义

语言模型是对令牌序列 token 的概率分布。假设有一个令牌集的词汇表 $V$ 。语言模型 $p$ 为每个令牌序列 $x_{1},...,x_{L} \in V$ 分配一个概率（0和1之间）：

dive-into-DL-3-MLP

Posted on 2023-03-21 Edited on 2023-03-28 In Notes , D2L
Symbols count in article: 27k Reading time ≈ 24 mins.

0. Preface

Most folks are as happy as they make up their minds to be.
— Abraham Lincoln

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习（Pytorch）》组队学习活动的笔记，本篇为系列笔记的第三篇—— 多层感知机。

本文是学习李沐老师 B 站视频教程动手学深度学习 PyTorch版所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件，在 markdown 文件中生成时间戳，可以在后期温习笔记时，方便地定位到原视频所在位置。

dive-into-DL-2-Linear

Posted on 2023-03-21 Edited on 2023-03-28 In Notes , D2L
Symbols count in article: 37k Reading time ≈ 33 mins.

0. Preface

本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习（Pytorch）》组队学习活动的笔记，本篇为系列笔记的第二篇—— 线性回归和Softmax回归。

本文是学习李沐老师 B 站视频教程动手学深度学习 PyTorch版所记录的笔记。主要使用 Obsidian 软件并借助插件 Meida extended 插件，在 markdown 文件中生成时间戳，可以在后期温习笔记时，方便地定位到原视频所在位置。

10. 大模型之 Adaptation

9. 新的模型架构

7. 模型训练

6. 模型架构

6.1 大模型之模型概括

4. 大模型的数据

3. 大模型的有害性

3.1 Introduction

2. 大预言模型的能力

在本次课程中，我们将深入探讨 GPT-3 大预言模型的能力。我们的研究主要是基于 GPT-3论文 中的基准测试，这些测试包括：

1. Introduction

1.1 语言模型 (Language Model, LM)

1.1.1 定义

0. Preface

0. Preface

在本次课程中，我们将深入探讨 GPT-3 大预言模型的能力。我们的研究主要是基于 GPT-3论文中的基准测试，这些测试包括：