4. 大模型的数据
在之前的内容,我们讨论了大型语言模型的行为(能力和损害),本节将开始讨论模型的构建。我们知道,任何机器学习方法的起点都是训练数据。
本笔记是 DataWhale 2023年 09 月
简单学点大模型 项目的学习笔记。原项目地址:Clike
here。
语言模型是对令牌序列 token
的概率分布。假设有一个令牌集的词汇表 V。语言模型 p 为每个令牌序列 x_{1},...,x_{L} \in
V分配一个概率(0和1之间):
Most folks are as happy as they make up their minds to be. — Abraham Lincoln
本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第三篇—— 多层感知机。
本文是学习李沐老师 B 站视频教程 动手学深度学习
PyTorch版 所记录的笔记。主要使用 Obsidian
软件并借助插件 Meida extended 插件,在 markdown
文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。
本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第二篇—— 线性回归和Softmax回归。
本文是学习李沐老师 B 站视频教程 动手学深度学习
PyTorch版 所记录的笔记。主要使用 Obsidian
软件并借助插件 Meida extended 插件,在 markdown
文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。
本系列博文是 DataWhale 社区 2023年 3月《动手学深度学习(Pytorch)》组队学习活动的笔记,本篇为系列笔记的第一篇—— 初识深度学习和预备知识整理。
本文是学习李沐老师 B 站视频教程 动手学深度学习
PyTorch版 所记录的笔记。主要使用 Obsidian
软件并借助插件 Meida extended 插件,在 markdown
文件中生成时间戳,可以在后期温习笔记时,方便地定位到原视频所在位置。
本文是《摄影入门:拍出美照超简单》书本的学习笔记,文字部分借助
obsidian + Annotator
插件(Annotator 介绍见 obsidian-annotator),实现
pdf 文档标注及文字实时提取功能,能够将所有标注的文字提取到
markdown 文件中。图片部分借助
Image auto upload plugin 插件 (见 Link
)和 PicGo 实现图片自动上传到 GitHub
图床。然后借助 python
实现简单的文本内容提取,就可以得到纯净的笔记内容。
本文是学习B站视频教程【英语口语】连读教程
| 连音、变音、发音 |
逐字逐句讲解(中美外教教学)所记录的笔记,借助插件 bilibiliNoteExport
将B站的学习笔记导出成PDF,随后将其导出成
Word,将文中的图片提炼出来。然后拷贝B站的文字笔记到Markdown
文件(无法将图片复制出来),再通过编程的方式将提炼出来的图片与
Markdown 文件的图片进行关联,最终得到笔记的全部内容。
本文是学习B站视频教程从零开始手把手教你学摄影所记录的笔记,借助插件
bilibiliNoteExport
将B站的学习笔记导出成PDF,随后将其导出成
Word,将文中的图片提炼出来。然后拷贝B站的文字笔记到Markdown
文件(无法将图片复制出来),再通过编程的方式将提炼出来的图片与
Markdown 文件的图片进行关联,最终得到笔记的全部内容。