1 Introduction
本文为参考洪永淼老师《高级计量学》复习高级计量经济学的学习笔记。
2 一般回归分析和模型设定
2.1 条件概率分别
-
边际概率密度函数 (
) -
给定
, 的条件概率密度函数 ( ) -
条件均值(
) -
条件方差(
) -
条件偏度(Conditional skewness)(
) -
条件峰度(Conditional kurtosis)(
) -
条件
- 分位数(Conditional -quantile)( )
2.2 条件均值与回归分析
2.2.1 定义
- 定义 2.1(
)< 回归函数 (Regression Function) >:条件均值 称为 对 的回归函数;
2.2.2 定理
-
定理 2.1(
): ; -
定理 2.2(
) < 重复期望法则 (Law of Interated Expectations, LIE) >:对给定的可测函数 ,假设期望 存在,则: -
定理 2.3(
)< 最优解 >:条件均值 是下列问题的最优解:其中,
是所有可测和平方可积函数的集合 (Space of all measurable and quare-integrable functions),即:< 注:可通过中间变量
证明 > -
定理 2.4(
)< 回归等式 (Regression Identity) >:给定条件均值 ,总有:其中,
称为回归扰动项(Regression disturbance),满足:
2.3 线性回归建模
2.3.1 定义
-
定义 2.3(
)< 仿射函数 (Affine Function) >:记 , 。则仿射函数族定义为:这里,对参数向量
的值没有限制。对于这族函数,函数形式一致,分别是解释变量和参数 的线性函数; -
定义 2.4(
)< 线性回归模型 (Linear Regression Model) >:方程:称为
对 的线性回归模型,其中 是回归模型误差 (Regression model error)。如果 ,称为二元线性回归模型 (Bivariate linear regression model) 或直线回归模型 (Straight linere gression model)。如果 ,则称为多元线性回归模型 (Multiple linear regression model);
2.3.2 定理
-
定理 2.5(
)< 最优线性最小二乘预测 (Best Linear Least Squares Predictstion) > :假设 ,且 矩阵 是非奇异的。则以下优化问题:的解,即最优线性最小二乘法预测值为:
其中最优系数向量为(
): -
定理 2.6(
):假设定理 2.5 的条件成立。令:并令
为最优线性最小二乘近似系数。则:当且仅当以下正交条件成立:
2.4 条件均值的模型设定
2.4.1 定义
- 定义 2.5(
)< 条件均值模型的正确设定 >:线性回归模型:
是条件均值 的正确设定,如果存在某个参数值 ,有:
另一方面,如果对于任意的参数值 ,
则称线性回归模型是对 的错误设定 (Misspecified);
2.4.2 定理
-
定理 2.7(
):如果线性回归模型:是对条件均值
的正确设定则:1)存在一个参数
和一个随机变量 ,有 ,其中 ;2)
3. 经典线性回归模型
3.1 假设
-
假设 3.1(
)< 线性 (Linearity) >: 是一个可观测的随机样本,且:其中,
是一个 未知参数向量, 是一个不可观测的随机扰动项;令:
这里
的第 行是 维行向量 。从而,(1) 式可以表示为: -
假设 3.2(
)< 严格外生性 (Strict Exogeneity) >:这一假设隐含着
的模型设定正确; -
假设 3.3(
)< 非奇异性 (Nonsingularity) >:1)
方阵 X^\prime X = \sum_\limits{t=1}^n X_t X_t^\prime 是非奇异的(排除了 中存在多重共线性);2)当
时, 的最小特征值:的概率为 1;
-
假设 3.4(
)< 球形误差方差 (Spherical Error Variance) >:1)条件同方差:
2)条件不相关:
上述可写为:
其中,
当且仅当 ;
3.1.1 总结
给定假设 3.2 和 3.4 意味着
同样的,对于所有的
如果
3.2 普通最小二乘法 (OLS)
3.2.1 定义
-
定义 3.1(
)< 估计量 >:定义线性回归模型 的残差平方和 (Sum of squared residuals, SSR) 为:则普通最小二乘法 (
) 估计量 是以下优化问题的解:注:
具有以下良好性质(陈强, ):1)线性性。
估计量 为线性估计量(Linear estimator)。从 估计量的表达式 可知, 可以视为 的线性组合,同时也是 的线性组合(将 视为系数矩阵, )。故为线性估计量。2)无偏性。
,即 不会系统地高估或低估 ,即定理 3.5 (1)。3)估计量
的协方差矩阵。 ,见定理 3.5 (2)。4)**最小方差性。**所有无偏估计量中最小二乘估计的方差最小。
3.2.2 定理
-
定理 3.1(
)< 的存在性 >:在假设 3.1 和 3.3 (1) 下, 估计量 存在,并且:其中第二个表达式在后面章节的渐近分析中将经常用到。
注:
称为观测值 的 拟合值或者预测值,而 是观测值 的 估计残差或预测误差。被解释变量 可以分解为相互正交的拟合值 与残差 之和,参见 Fig. 3-1。
-
定理 3.2(
):给定假设 3.1 和 3.3 (1),有:(1)
(2)
注: 上式可变为
,其中 是权重向量,因此,给定 是 的线性组合,当 服从联合正态分布时, 也服从正态分布。(3) 定义
投影矩阵和
则
和 是对称的(即 )幂等矩阵(即 ),并且(4)
注:
( )
3.3 拟合优度和模型选择准则
3.3.1 定义
-
定义 3.2(
)< 非中心化 >:非中心化多元相关系数平方 定义为: 的含义是因变量 的非中心化的样本二次型变动可以被预测值 的非中心化样本二次型变动所预测的比例。由定义可知,总有 。 -
定义 3.3(
)< 中心化 或决定系数 (Coefficient of Determination) >:决定系数定义为:其中 \overline Y = n^{-1}\sum_\limits{t=1}^{n}Y_t 是样本均值。
注:
-
当
包括截距项,即 时,可进行如下正交分解:此时(
): -
如果
不包括截距项,此时 是奇异矩阵,且可能有 ,所以有:在这种情况下,
可能为负值,因为交叉项 \sum_\limits{t=1}^{n}(\hat Y_t - \overline Y)e_t 可能为负值。
-
3.3.2 定理
-
定理 3.3(
): ,这里 是 和 的样本相关系数。 -
定理 3.4(
):假设 是一容量为 的随机样本, 是下列线性回归模型的中心化拟合度:其中,
, 是 未知参数向量; 是下面扩展的线性回归模型的中心化扰合优度:其中,
, 是 未知参数向量, 是正整数。则:**注:**定理 3.4 有重要含义:
-
可用于 解释变量数目相等 的线性回归模型的比较,但它不适用于 比较不同解释变量数目 的线性模型,因为 模型的解释变量越多, 就会越大。 -
也不是正确模型设定的判断标准。 高并不意味着模型设定正确,事实上,给定解释变量 , 值的大小 与线性回归模型的信噪比 有关。
-
3.3.3 模型选择准则
-
Akaike 信息准则(Akaike information criterion, AIC)
线性回归模型可通过选择合适的解释变量数模
,以最小化下面的 Akaike 信息准则来选择模型。其中,
是自变量 的数目,第一项 测度模型的拟合优度,而第二项 测度模型的复杂程度。另外, 是 的残差方差估计量(Residual variance estimator)。 -
Bayesian 信息准则(Bayesian information criterion, BIC)
线性模型也可以通过选择合适的
,以最小化以下 信息准则来选择模型: -
我们知道
的定义为:其中,
和 \sum_\limits{t=1}^{n}(Y_t - \overline Y)^2 / n 分别是方差 和 的有偏估计。残差平方和: (书中为 (residual),调整的 为:
此时有:
3.4 估计量的无偏性和有效性
3.4.1 定理
-
定理 3.5(
):如果假设 3.1、3.3 (1) 和 3.4 成立,则:1)无偏性 < Unbiasedness > :
,并且 ;
注:将 视为系数矩阵( )。2)方差偏小性 < Vanishing variance > 所有无偏估计中,最小二乘的方差最小:
如果假设 3.3 (2) 也成立,那么对于任意的
向量 ,满足 ,有:3)正交性 < Orthogonality between
and > :4)Gauss - Markov 定理:对于任意的线性无偏估计量
是半正定 (Positive semi-definite, PSD) 的(说明 是方差最小的。5)残差方差估计量 < Residual variance estimator >:
是
的无偏估计量,即 。注: **由于随机变量
必须满足 个正规方程 ,故其中只有 个残差是(自由)独立的,**经过自由度校正后,才是无偏估计。如果样本容量 很大,当 时, ,是否进行“小样本校正”并无多大区别。
3.5 估计量的抽样分布
3.5.1 假设
-
假设 3.5(
)< 条件正态分布 (Conditional Normality) >: 。假设 3.5 可以推出假设 3.2(
) 和假设 3.4 ( )。事实上,在假设 3.5 下, 的条件概率密度函数:不依赖于
,从而随机扰动项 独立于 。因此, 的任何条件矩均不依赖于 。
3.5.2 定理
-
定理 3.6(
)< 的条件正态分布 >:给定假设 3.1、3.3 (1) 和 3.5,对所有的 : -
推论 3.7(
)< 的条件正态分布 >:给定假设 3.1、3.3 (1) 和 3.5,则对于任何非随机的 矩阵 ( 为参数限制数目),有:其中,
可以视为一个选择矩阵,如 ,则 ,在假设检验中需要用到 的抽样分布。但由于 是未知的,因此要估计 。
3.6 估计量的方差 - 协方差矩阵的估计
3.6.1 定理
-
引理 3.8(
)< 正态随机变量的二次型 (Quadratic Form of Normal Random Variables) >:如果一个 随机变量 ,并且 是一个 非随机对称幂等矩阵, 秩 ,则二次型:在以下引用中,
。因为 ,所以: -
引理 3.9(
)< 残差方差的估计量 (Residual Variance Estimator) >:给定假设 3.1、3.3 (1) 和 3.5,则对于任意的 ,有:1)
其中,
。
2)给定 的条件下, 和 是独立的。从定理 3.4(3) 可知: ,对于联合正态分布而言,零相关意味着相互独立。
3.7 参数假设检验
3.7.1 定义
- 定义 3.4(
)< 依分布收敛 (Convergence in Distribution) > :假设 是一个分布函数为 的随机变量或随机向量的序列, 是一个不依赖于 的分布函数为 的随机变量或随机向量。称 依分布收敛于 ,如果在分布函数 的任何连续点, 的分布函数值均收敛于 的分布函数值,即:
或等价地:
用符号 表示。 的分布称为 的渐近分布或极限分布。
3.7.2 定理
- 推论 3.10(
):给定假设 3.1、3.3 (1) 和 3.5,当原假设 成立时,对于每一个 ,有:
-
推论 3.11(
):如果 随机向量 ,其中 是一个 对称、非奇异的方差 - 协方差矩阵,则: -
定理 3.12(
):给定假设 3.1、3.3 (1) 和 3.5,当原假设 成立时,对于每一个 ,有: \ \frac{s^2(n-K)}{\sigma^2} \sim \chi^2(n-K) -
定理 3.13(
):给定假设 3.1、3.3 (1) ,令 是以下无约束回归模型的残差平方和:令
是以下有约束模型的残差平方和 :其约束条件为:
这里
, 是有约束回归模型的 估计量。则 检验统计量可写为: -
定理 3.14(
):给定假设 3.1、3.3 (1) 和 3.5,则当原假设是 成立且 时, 检验统计量:可以发现,这里定义的
检验统计量与 检验统计量 只相差一个比例常数 ,这是因为目前考虑条件同方差的情形。如果存在条件异方差,仍然可以定义 检验统计量,但是 这一关系将不再成立。
3.9 广义最小二乘估计
经典线性回归模型依赖于关键假设—假设 3.5(
3.9.1 假设
-
假设 3.6(
): ,其中 是未知的,但 是一个已知的对称与有限的 正定矩阵。从假设可知条件方差(
):虽然
仅包含一个未知常数 ,但它允许存在已知形式的条件异方差 。
3.9.2 定义
3.9.3 定理
-
定理 3.15(
):给定假设 3.1、3.3 (1) 和 3.6,则:1)无偏性:
;2)方差:
;3)正态分布:
;4)相关性:
(其中, )。相关性表明,由于给定
和 存在相关性, 检验和 检验统计量定义中的分子和分母不再独立,所以不能得到有限样本条件下的 分布和 分布。为了解决该问题,需要考虑新的估计方法——GLS。 -
引理 3.16(
):对于任意的 对称正定矩阵 ,总可以写成:这里,
是一个 非奇异矩阵。这称为 Cholesky 分解(Cholesky factorization),其中 C 可能是非对称矩阵。考虑线性回归模型:
令
。所以有: ; ;变换后的回归模型的
估计量为:称为广义最小二乘 (
) 估计量。变换后的 和 不相关,故 和 检验可用:\begin{align*} T^* &= \frac{R \hat\beta {}^* - r}{\sqrt{s^*{}^2 {R(X{}^*}^\prime {X{}^*})^{-1}R^\prime}} \sim t(n-K) \
\end{align*}
1)无偏性:
;2)方差:
;3)相关性:
,其中 ;4)
是最优线性无偏估计量(BLUE);5)
,其中 。
4 独立同分布随机样本的线性回归模型
在
4.1 渐近理论导论
4.1.1 定义
-
定义 4.1(
)< 依均方收敛或依二次方均值收敛 (Convergence in Mean Squares or in Quadratic Mean) > :一个随机变量(或固定维数的随机向量,即 的维数不随 的增加而变化)序列 依均方收敛于随机变量(或随机向量) ,如果当 时,有:其中,
是随机变量或随机向量的模。记 。**注:**当
是一个固定维数的随机向量时,可理解为 的每一个元素的序列收敛于 的相对应元素。如果 是一个 的矩阵时,可将平方模定义为: -
定义 4.2(
)< 依概率收敛 (Convergence in Probability) > :一个随机变量序列 依概率收敛于 ,如果对任意给定的常数 ,有:或等价地:
对于依概率收敛,可记为
或 。 -
定义 4.3(
)< 依概率有界 (Boundedness in Probability) > :一个随机变量序列 依概率有界的,如果对任意小的常数 ,存在常数 ,使得,当 时,有:记为
。 -
定义 4.4(
)< 几乎必然收敛 (Almost sure convergence)) > : 几乎必然收敛于 ,如果:记为
或 。**注:**几乎必然收敛可以推出依概率收敛,但依概率收敛不一定能推出几乎必然收敛。
4.1.2 定理
-
引理 4.1(
)< 独立同分布样本的弱大数定律 (Weak Law of Large Numbers (WLLN) for I.I.D Samples) > :假设随机样本 服从 ,并定义 \bar Z_n = n^{-1} \sum_\limits{t=1}^{n} Z_t,这里 。则当 时: -
引理 4.2(
)< 独立同分布随机样本的弱大数定律 (WLLN for I.I.D Samples) > :假设 是一个独立同分布随机样本, 且 。定义 \bar Z_n = n^{-1} \sum_\limits{t=1}^{n} Z_t,则当 时: -
引理 4.3(
):如果 ,则 。 -
引理 4.4(
)< 独立同分布随机样本的强大数定律 (Strong Law of Large Numbers (SLLN) for I.I.D Samples) > :假设 是一个独立同分布随机样本, 且 。则当 时: -
引理 4.5(
)< 连续性 (Continuity) > :1)假设当
时, ,且 和 是连续函数。则:2)对于几乎必然收敛,也有类似结论。
-
引理 4.6(
)< 独立同分布随机样本的中心极限定理 (CLT for I.I.D Random Samples) >:假设 是一个 随机样本呢,这里 是随机变量。定义 \bar Z_n = n^{-1} \sum_\limits{t=1}^n Z_t 时,有: -
引理 4.7(
)< Cramer-Wold 方法 > :假设 和 均是 随机向量,这里 是一个固定正整数。令 。则 ,当且仅当对于任意非零的 ,且满足 ,使得: -
定理 4.8(
)< Slutsky 定理 > :令 且 , 其中 和 是常数。则当 时,有 : -
定理 4.9(
)< Delta 方法 > :假设 , 是连续可导的函数。且 。则当 时,有 ,且:
4.2 线性回归模型假设
4.2.1 假设
-
假设 4.1(
)< 独立同分布 (I.I.D) > : 是一个可观测的独立同分布随机样本(独立同分布意味着,对于 ,回归扰动项不存在自相关); -
假设 4.2(
)< 线性 (Linearity) > : -
假设 4.3(
)< 正确模型设定 (Correct Model Specification) > : 且 ; -
假设 4.4(
)< 非奇异性同分布 (Nonsingularity) > : 阶矩阵 是对称、有限与非奇异的;由强大数定理可知:
时, -
假设 4.5(
): 阶矩阵 是对称、有限与正定 (PD) 的;
这些假设的一个重要特征时:不要求
4.3 估计量的一致性
由假设 4.4 可知,对于所有的
假设有一个随机样本
其中,
将
4.3.1 定理
- 定理 4.10(
)< 估计量的一致性 (Consistency of OLS) > :给定假设 4.1-4.4,且当 时,有:
4.4 估计量的渐近正态性
4.4.1 假设
- 假设 4.6(
)< 条件同方差 (Conditional Homoskedasticity) >: 。
4.4.2 定理
-
引理 4.11(
)< 独立同分布随机样本的多元中心极限定理 (Multivariate CLT for I.I.D. Random Samples) >:假设 是一个独立同分布随机样本,且 是一个有限、对称与正定的矩阵,定义:则当
时,有:或等价地:
其中,
是一个维数与 相同的单位矩阵。引理 4.11 表明, 是 的渐近分布的方差,简称 的渐近方差,记为 。 -
定理 4.12(
)< 估计量的渐近正态分布 (Asymptotic Normality of OLS) >:给定假设 4.1-4.5,则当 时,有:其中
。 -
定理 4.13(
):给定假设 4.1-4.6,则当 时,有:定理 4.13 表明,当存在条件同方差时,
的渐近方差 ( ) 为:
4.5 渐近方差估计量
4.5.1 定理
1. 条件同法差
在这种情况下,由定理 4.13,
-
引理 4.14(
):给定假设 4.1、4.2 和 4.4,则:其次,考虑估计
。因为 ,可使用样本残差方差估计量: -
定理 4.15(
):< 的一致估计量 (Consistent Estimator of )>:给定假设 4.1-4.4,当 时,有: -
定理 4.16(
):< 条件同方差下 的渐近方差估计量 (Asymototic Variance Estimator of OLS Under Conditional Homoskedasticity) >:给定假设 4.1-4.4,当 时,有: 的渐近方差估计量是:这等价于,当
很大时, 的方差估计量近似为:
2. 条件异方差
在存在条件异方差(即
其中,
-
引理 4.17(
):给定假设 4.1-4.5 和 4.7,则当 时,有 -
引理 4.18(
)< 条件异方差下 的渐近方差估计量 (Asymptotic Variance Estimator of OLS Under Conditional Heteroskedasticity) >:给定假设 4.1-4.5 和 4.7,则当 时,有这就是
的 异方差一致性方差 - 协方差矩阵估计量 (Heteroskedasticity-consistent variance-covariance matrix estimator)。因此,当存在条件异方差及 很大时, 的方差估计量为:其中
。
4.5.2 假设
-
假设 4.7(
):(1) 对于所有的 。(2) 。注:渐近方差估计
在条件同方差下也是渐近有效的,即 ,但在有限样本条件下,可能不如 表现好,因为后者利用了条件同方差这一信息。
4.6 参数假设检验
下面考虑如何构建统计量以检验原假设:
其中
首先考虑统计量
其中,
1. 条件同方差情形(
-
定理 4.19(
)< 检验 >:给定假设 4.1-4.4 和 4.6,则当假设 成立, ,且 时,经典 检验统计量: -
定理 4.20(
)< 渐近 检验 >:给定假设 4.1-4.4 和 4.6,则当假设 成立, ,且 , 检验统计量(同方差,方差可知: -
定理 4.21(
)< 检验 >:给定假设 4.1-4.6,检验以下原假设:其中,
是线性回归方程:除截距项
意外的所有回归系数。令 是无约束线性回归模型的决定系数,则当原假设 成立及 时,有:其中,
的定义( )为:在原假设
时, 。
2. 条件异方差情形(
在原假设
其中,
给定
当
这里,稳健性 (Robustness) 是指,当存在条件异方差时,
-
定理 4.22(
)< 条件异方差下的稳健 检验 (Robust t-Test Under Conditional Heteroskedasticity) >:给定假设 4.1-4.5 和 4.7,则当原假设 成立。当
,且 时,稳健 检验统计量为:当
,在原假设 下,有二次型:其中,
这里,
。 -
定理 4.23(
)< 条件异方差下的稳健 检验 (Robust Wald Test Under Conditional Heteroskedasticity) >:给定假设 4.1-4.5 和 4.7,则当原假设 成立,且 时,有:异方差下,方差不可知,用渐近分布估计方差。
4.7 条件异方差检验
考虑原假设:
非零假设为:
其中,
假设
5 平稳时间序列的线性回归模型
5.1 时间序列分析导论
5.1 定义
- 定义 5.1(
)< 随机时间序列过程 (Stochastic Time Series Process) >:一个随机时间序列过程 是由概率法则 支配而产生的随机变量或向量序列。其中, 代表时间, 是样本空间, 是 域, 是概率测度。