10. 大模型之 Adaptation
使用语言模型(例如在上下文学习中)通过仅给出提示,我们已经能够执行一些任务。然而,提示方法并不适用于全部的下游任务,如自然语言推理 NLI
、问题回答 QA
、将网络表格转换为文本、解析电子健康记录 EHR
等。
使用语言模型(例如在上下文学习中)通过仅给出提示,我们已经能够执行一些任务。然而,提示方法并不适用于全部的下游任务,如自然语言推理 NLI
、问题回答 QA
、将网络表格转换为文本、解析电子健康记录 EHR
等。
通过前文的学习,我们知道神经预言模型的核心借口是一个将 token
序列映射到上下文嵌入的编码器:
the,mouse,ate,the,cheese]⇒ϕ[(0.11),(10),(11),(−0.11),(−10)].
本笔记是 DataWhale
2023年 09
月 简单学点大模型
项目的学习笔记。原项目地址:Clike here。
语言模型是对令牌序列 token
的概率分布。假设有一个令牌集的词汇表 V。语言模型 p 为每个令牌序列 x1,...,xL∈V分配一个概率(0和1之间):
Most folks are as happy as they make up their minds to be.
— Abraham Lincoln
本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第三篇—— 多层感知机。
本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian
软件并借助插件 Meida extended
插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。
本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第二篇—— 线性回归和Softmax回归。
本文是学习李沐老师 B 站视频教程 动手学深度学习 PyTorch版 所记录的笔记。主要使用 Obsidian
软件并借助插件 Meida extended
插件,在 markdown 文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。