Pytorch-3-Word2vec
Symbols count in article: 32k Reading time ≈ 29 mins.
1. Study goals
- 学习词向量的概念
- 用 Skip-thought 模型训练词向量
- 学习使用 PyTorch dataset和 dataloader
- 学习定义 PyTorch 模型
- 学习 torch.nn 中常见的 Module
- Embedding
- 学习常见的 PyTorch operations
- bmm
- logsigmoid
- 保存和读取 PyTorch 模型
Pytorch-2-Autogradient
Symbols count in article: 16k Reading time ≈ 14 mins.
1. 什么是PyTorch?
PyTorch是一个基于Python的科学计算库,它有以下特点:
- 类似于 NumPy,但是它可以使用 GPU
- 可以用它定义深度学习模型,可以灵活地进行深度学习模型的训练和使用
Pytorch-1-Introduction
Symbols count in article: 3.2k Reading time ≈ 3 mins.
Statement: This series of post records the personal notes and
experiences of learning the BiliBili video tutorial "Pytorch
入门学习", most of code and pictures are from the courseware PyTorch-Course.
All posted content is for personal study only, do not use for other
purposes. If there is infringement, please contact
e-mail:yangsuoly@qq.com
to delete.
DataAnalysis-Modeling
Symbols count in article: 12k Reading time ≈ 11 mins.
1 Modeling creation
经过前面的学习,已可以对数数据进行增删查补和清洗工作。接下来需要使用处理好的数据进行分析和建模。这一章要做的是运用数据来得到某些结果。
分析的第一步是搭建一个预测模型或者其他;根据模型的结果,可以分析该模型是否可靠。
DataAnalysis-Cleaning
Symbols count in article: 15k Reading time ≈ 13 mins.
前文已经对数据分析的基本操作进行了学习,接下来要进行数据清洗、数据特征提取、数据重构以及数据可视化的学习。
1 Data cleaning
1.1 Load data
1 | import numpy as np |
DataAnalysis-Describe
Symbols count in article: 13k Reading time ≈ 12 mins.
1 概述
这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。 这里有两份资料: 教材《Python for Data Analysis》和 baidu.com & google.com(善用搜索引擎)
Ensemble-Steam
1. Problem
1.1 Introduction of Background
火力发电的基本原理是:颜料燃烧时加热水会生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量呢?
Ensemble-happiness
1. Problem
1.1 Introduction of background
幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万,这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗?
Ensemble-Stacking
1. Introduction
Blending 集成方法的学习过程中,可以发现 Blending 在集成过程中只使用到了验证集的数据,这就造成了很大的浪费。因此可以靠用使用 Stacking 集成方法进行改进。