相关传送门:线性代数复习大语言模型

综述

线性回归

线性模型(Linear Model):已知训练数据 (xi,yi)(\pmb{x}_i,y_i),学一个向量 w\pmb{w} 使得预测函数为 f(x)=w0+wTxf(x)=\pmb{w}_0+\pmb{w}^T\pmb{x}

线性回归(Linear Regression):用均方误差(Mean Squared Error)估价,即 Jn=1n(yif(xi))2J_n=\frac{1}{n} \sum (y_i-f(\pmb{x}_i))^2

X=[x1,x2,,xn],Y=[y1,y2,,yn]Jn(w)=(YXTw)T(YXTw)Jn=2X(YXTw)Jn=0w^=(XXT)1XYX=[\pmb{x}_1,\pmb{x}_2,\dots,\pmb{x}_n], Y=[y_1,y_2,\dots,y_n]\\ J_n(w)=(Y-X^T\pmb{w})^T(Y-X^T\pmb{w}) \\ \nabla J_n=-2X(Y-X^T\pmb{w}) \\ \nabla J_n =0 \leftrightarrow \pmb{\hat w}=(XX^T)^{-1}XY

推论:如果样本数小于特征数,XXTXX^T 一定不满秩,即推不出最优解。

拓展:为什么用均方误差估价是合理的?

  1. 一个线性模型的实际效果记为 y=f(x,w)+ϵy=f(\pmb{x},\pmb{w})+\epsilon,样本量充足时噪声 ϵ\epsilon 服从高斯分布 N(0,σ2)N(0,\sigma^2)
  2. 如果我们已经有了个模型,那么当前标签分布出现的概率是 L=i=1nP(yixi,wi,σ)L=\prod \limits_{i=1}^n P(y_i|\pmb{x}_i,\pmb{w}_i,\sigma)
  3. 我们希望找到一个模型使得 LL 尽可能得大,用最大似然理论去估计,得出极大化 LL 等价于极小化 MSE。

logL=12σ2(yf(x,w)2)+c(σ)\log L=-\frac{1}{2\sigma^2}\sum(y-f(\pmb{x},\pmb{w})^2)+c(\sigma)

拓展:使用 λwq\lambda |\pmb{w}|_q 惩罚项来缓解标准线性回归中的过拟合和多重共线性的现象。当 q=1,2,3q=1,2,3 \dots 时优化函数是凸的,所以我们总能解出最优的解(即使是数值解)。但是当 q=0.5q=0.5 时就没有那么好的性质了。

岭回归(Ridge Regression):特指 q=2q=2 的 L2 惩罚项。解的系数会向零收缩,但不会完全变为零。

Jn=i=1n(yixiTw)2+λi=1pwj2Jn=2X(YXTw)+2λwJn=0w^=(XXT+λI)1XYJ’_n=\sum \limits_{i=1}^n(y_i-\pmb{x}_i^T\pmb{w})^2+\lambda \sum \limits_{i=1}^p \pmb{w}_j^2 \\ \nabla J'_n=-2X(Y-X^T\pmb{w})+2\lambda \pmb{w} \\ \nabla J_n =0 \leftrightarrow \pmb{\hat w}=(XX^T+\lambda\pmb{I})^{-1}XY

套索算法(LASSO):特指 q=1q=1 的 L1 惩罚项。解会变得稀疏的,即很多维会被压缩到 00

逻辑回归:

贝叶斯决策理论

贝叶斯决策理论(Bayesian Decision Theory):基于贝叶斯公式进行有监督地预测。

  • 先验(Prior):P(wi)P(w_i)。获得新数据前,基于历史经验或知识对事件发生概率的初始信念。
  • 似然函数(Likelihood):P(xwi)P(x|w_i)。在已知某个参数或状态的情况下,观察到新数据的概率。
  • 后验(Posterior):P(wix)P(w_i|x)。观察到新数据后,对事件发生概率的最新、最完整的信念。

最大似然决策(Maximum Likelihood Decision):直接根据 Likelihood 去预测标签。

  • 隐含了所有类别的先验概率相同,即 P(w1)=P(w2)==P(wn)P(w_1)=P(w_2)=\dots=P(w_n)

最优贝叶斯决策(Optimal Bayes Decision Rule):用更准确的 Posterior 去预测标签,理论最优。

【待更新推导】

聚类