formula


高等数学

1. 泰勒公式家族(等价无穷小之源)

核心思想:泰勒公式是“全集”,等价无穷小是其“子集”。放在一起记忆,以泰勒公式为纲。

皮亚诺余项刻画了麦克劳林(或泰勒)展开式在 (或 )时的局部逼近精度。 余项的阶数 表示:展开式已包含所有不超过阶的非零项(即使某些系数为 0),且误差比更高阶。 如对

但由于是奇函数,其系数为0,因此余项可以直接写到,即:

家族一:指数与对数族

  • 指数函数

记忆技巧:分母是阶乘,符号全为正。

衍生等价无穷小

  • 对数函数

记忆技巧:分母是自然数,符号正负交替。

衍生等价无穷小

进阶等价

家族二:三角函数族

  • 正弦函数

记忆技巧:只含奇数次项,符号正负交替。

衍生等价无穷小

进阶等价

  • 余弦函数

记忆技巧:只含偶数次项,符号正负交替。可以看作是 sin⁡xsinx 求导后的结果。

衍生等价无穷小

  • 正切函数

记忆技巧:可以通过 做多项式除法得到。

衍生等价无穷小

进阶等价

家族三:反三角函数族

  • 反正弦函数

记忆技巧:只有奇数次项,系数均为正。

衍生等价无穷小

进阶等价

  • 反正切函数

记忆技巧:形式类似 ln⁡(1+x)ln(1+x),但分母是奇数。

衍生等价无穷小

进阶等价

家族四:二项式家族(核心!)

  • 广义二项式定理(万能)

收敛域

  • 为非负整数:对所有 收敛(有限项多项式)。
  • :收敛域为
    • 时,在 处收敛;
    • 时,在 均发散。

记忆技巧:系数是组合数形式 。这是万能公式,许多其他公式可由它推出。

衍生等价无穷小

  • 常用特例
    1. 平方根(
  1. 几何级数(

2. 导数公式家族

家族一:基本初等函数

家族二:反函数族

家族三:经典复合函数


3. 积分公式家族

家族一:基本积分表

家族二:含 的积分

家族三:三角相关积分

家族四:常用积分结论(对称性、区间再现等)


线性代数

符号规范(MIT / Strang 标准)

  • 行列式:
  • 转置:
  • 伴随矩阵:
  • 秩:
  • 零空间(核):
  • 列空间:
  • 迹:

1. 行列式(Determinant)

1.1 基本性质

  • ,若

几何意义: 表示单位立方体经 变换后的体积 表示空间被压缩到低维(列线性相关)。

1.2 伴随矩阵与行列式

  • 定义: 的代数余子式矩阵的转置。

  • 恒等式:

  • 逆矩阵表达(当 ):

  • 行列式关系:

1.3 伴随矩阵的秩(高频考点)


2. 矩阵运算(Matrix Operations)

2.1 转置与逆

  • (若 可逆)

2.2 正交矩阵

  • 定义:
  • 性质:,保持向量长度与夹角。

3. 秩(Rank)

3.1 基本性质

  • 可逆,则

3.2 秩与矩阵结构

  • 列空间维数 = 行空间维数
  • 满秩方阵 ⇔ 可逆 ⇔

4. 特征值与矩阵函数(Eigenvalues)

4.1 基本关系

的特征值为

4.2 函数变换

  • 的特征值:
  • 的特征值:
  • 的特征值: 为多项式)

4.3 对称矩阵特例

  • 所有
  • 存在正交对角化:
  • 正定 ⇔ 所有

5. 四大基本子空间(The Four Fundamental Subspaces)

5.1 定义与维度

,记

子空间符号维度
列空间
零空间
行空间
左零空间

5.2 正交关系

几何:行空间与零空间构成 的正交直和分解。


6. 秩–零化度定理(Rank–Nullity Theorem)

6.1 定理陈述

6.2 应用

  • 齐次方程 的基础解系含 个线性无关解。
  • 判断解的唯一性:若 ,则只有零解。

7. 投影与最小二乘(Projection & Least Squares)

7.1 投影矩阵

列满秩,投影到 的矩阵为:

性质:

7.2 最小二乘解

无解,最优解满足正规方程:

误差向量 满足 (正交于列空间)。


8. 矩阵分解(Matrix Factorizations)

8.1 LU 分解(LU Factorization)

  • 条件:矩阵 可通过高斯消元化为上三角形式,且所有顺序主子式非零(或消元过程中主元均不为零)。
  • 形式 其中:
    • 单位下三角矩阵(对角线元素为 1),
    • 上三角矩阵
  • 用途
    • 高效求解线性方程组 :先解 (前向代入),再解 (回代);
    • 避免重复消元,适用于多个右端项 的情形;
    • 是理解高斯消元的矩阵视角( 记录消元乘子)。

⚠️ 注意:若消元需行交换,则需引入置换矩阵 ,得到 PLU 分解

8.2 QR 分解

  • 条件列满秩,通常 )。

  • 形式,其中 上三角可逆

  • 构造方法(Gram-Schmidt 过程): 对

  • 用途

    • 稳定求解最小二乘问题 的最小二乘解等价于 (因 ),避免 的病态。
    • 数值线性代数基础(如特征值算法中的 QR 迭代)。
    • 为 SVD 和正交化提供预处理。

⚠️ 注意
给定具体矩阵,可能要求手动执行 Gram-Schmidt 得到 ,务必掌握两步:正交化 → 单位化

8.3 奇异值分解(SVD)

  • 条件任意实矩阵 (不要求方阵、对称、满秩)。

  • 形式

    其中:

    • 左奇异向量矩阵,正交(),

    • 右奇异向量矩阵,正交(),

    • 奇异值矩阵,对角形式

      其中 称为 奇异值

  • 奇异值与特征值的关系

    • 的特征向量 = 的列(右奇异向量),
    • 的特征向量 = 的列(左奇异向量)。
  • 几何意义(MIT 核心洞见)
    SVD 揭示了线性变换 本质结构

    1. 先由 将输入空间 旋转/反射到主轴坐标系,
    2. 再由 沿坐标轴缩放(奇异值为缩放因子),
    3. 最后由 将结果旋转/反射到输出空间
      任何矩阵都是“旋转–缩放–旋转”的组合
  • 关键性质

    • 非零奇异值的个数,

    • (谱范数 = 最大奇异值),

    • (Frobenius 范数),

    • 最佳低秩近似(Eckart–Young 定理):

      是所有秩 ≤ 矩阵中对 的最佳逼近(在 Frobenius 或谱范数下)。

  • 伪逆(Moore–Penrose Inverse)
    无解或无穷多解时,最小二乘最小范数解为:

    是将 中非零 取倒数并转置得到的 矩阵。

  • 用途

    • 降维(PCA 本质是 SVD),
    • 图像压缩(保留前 个奇异值),
    • 推荐系统(矩阵补全),
    • 病态方程求解(截断小奇异值),
    • 机器学习中的嵌入与表示。

与 QR 对比

  • QR 仅适用于列满秩矩阵,且不揭示矩阵的“内在尺度”;
  • SVD 适用于任意矩阵,直接给出信息量排序),是更本质的分解。

8.4 QR 与 SVD 在最小二乘中的角色对比

方法适用条件数值稳定性是否揭示秩是否适用于秩亏
正规方程 列满秩差(
QR列满秩
SVD任意最佳

列满秩且规模小,可用 QR;若涉及秩、病态或概念,SVD 是终极工具。


9. 二次型与正定性(Quadratic Forms)

9.1 定义

二次型:(通常取

任一实二次型可写为:

其中 实对称矩阵,称为二次型的矩阵。

注:若给定多项式形式(如 ),需先写出对称矩阵 (交叉项系数平分)。

9.2 正定判别

以下等价(对实对称 ):

  • 对所有
  • 所有特征值
  • 所有顺序主子式
  • 存在可逆 使

9.3 正交变换法(谱分解法)——适用于实对称矩阵

,则:

  • 正交(
  • 特征值
  • 二次型 的极值由 控制

正定 ⇔ 所有 ⇔ 所有顺序主子式

目标:通过正交变换 ),将二次型化为标准形:

考试步骤

  1. 写出对称矩阵
  2. 的特征值 (解
  3. 对每个特征值,求单位正交特征向量(Gram-Schmidt 正交化,如需要)
  4. 构造正交矩阵
  5. ,则标准形为

优点:保持向量长度(正交变换是旋转/反射),几何意义清晰。
MIT 视角:这就是实对称矩阵的 谱分解 的直接应用。

⚠️ 考试注意:若题目说“用正交变换化标准形”,必须用此法,配方法不得分!


9.4 配方法(Lagrange Method)——通用但需技巧

目标:通过可逆线性变换(不要求正交),将二次型化为标准形(平方和)。

考试步骤(以三元为例)

情形 1:含平方项(如

  • 以含 的项为核心,将所有含 的交叉项配成完全平方

  • 例如:

  • ,代入后对剩余变量继续配方

情形 2:无平方项(只有交叉项,如

  • 先作预变换引入平方项,例如:

  • 再对新变量配方

最终目标

其中

优点:计算快,不需求特征值
缺点:变换矩阵 一般不正交,不能用于求主轴方向或保持几何结构
⚠️ 考试注意:若题目只说“化为标准形”或“规范形”,配方法可接受;若要求“正交变换”,则必须用 10.2


9.5 标准形 vs 规范形 vs 惯性定理

  • 标准形:系数为任意非零实数(如

  • 规范形:系数仅为 (由惯性定理保证唯一)

    其中:

    • = 正惯性指数(正特征值个数)
    • = 负惯性指数(负特征值个数)

🔑 Sylvester 惯性定理
无论用何种可逆变换,不变量
⇒ 可用于判断两二次型是否合同(即是否存在可逆 使


9.6 正定性判别(考试高频)

实对称矩阵 对应的二次型

性质判别条件
正定 所有特征值
所有顺序主子式
正惯性指数
负定 所有特征值
奇数阶主子式 ,偶数阶
半正定 所有特征值

⚠️ 考试陷阱
“所有主子式 > 0” ≠ “正定”!必须是顺序主子式(左上角


9.7 谱分解 vs 配方法:考试策略对比

题目要求推荐方法理由
“用正交变换化标准形”谱分解(10.2)配方法变换非正交,不符合题意
“化二次型为标准形”配方法(10.3)更快,避免解高次特征方程
“求正/负惯性指数”谱分解 或 配方法两种方法均可得
“判断正定性”顺序主子式 或 特征值主子式通常更快

10. 思维要点(几何与代数统一)

  1. 有相同的非零特征值。
  2. Frobenius 范数:
  3. 投影矩阵的迹 = 秩(因特征值为 0 或 1)
  4. 是正交矩阵,则
  5. ⇔ 列线性相关 ⇔ 体积坍缩 ⇔ 无逆
  6. 求解 ⇔ 在列空间中找 的线性组合
  7. 特征向量 = 方向不变,特征值 = 伸缩比例
  8. SVD = 任意矩阵的“最佳坐标系”:先旋转,再缩放,再旋转
  9. 最小二乘 = 正交投影 = 误差最短
  10. 可以用行列式打开局面,国内考试常以行列式为切入点构造综合题,需熟练转化伴随、逆、秩等关系。

概率论与数理统计

1. 离散型分布

分布分布律期望 方差
0-1分布
二项分布
泊松分布
几何分布 (无记忆性)

2. 连续型分布

分布概率密度期望 方差
均匀分布
指数分布 (无记忆性)
正态分布

:标准正态密度的归一化依赖高斯积分:

3. 数字特征

3.1 期望(数学期望)

  • 基本性质:

  • 样本均值的期望(重要统计结论):

    → 样本均值 是总体均值 无偏估计


3.2 方差

  • 定义与恒等式:

  • 基本性质:

  • 独立可加性:若 两两不相关(特别地,若独立),则

  • 样本均值的方差

  • 样本方差的期望(贝塞尔校正的核心):


3.3 协方差与相关系数

  • 协方差定义:

  • 性质:

  • 相关系数:

  • 独立 ⇒ 不相关,但不相关 ⇏ 独立(除非联合正态)。


3.4 高阶矩与常用恒等式

k 阶原点矩

  • k 阶中心矩

    • 一阶中心矩 = 0
    • 二阶中心矩 = 方差
    • 三阶中心矩 → 偏度(skewness)
    • 四阶中心矩 → 峰度(kurtosis)
  • 方差分解公式(全方差公式,用于分层抽样等):

  • 协方差的计算技巧


3.5 正态分布下的特殊性质(关键!)

  • ,则:

    • 独立 ⇔ (正态分布下不相关即独立)
    • 条件分布 仍为正态
  • 样本均值与样本方差独立
    ,则

    → 这是 t 分布成立的基础!


4. 数理统计基础结论

4.0 自由度与贝塞尔校正

什么是自由度?

自由度(df)是指在计算某个统计量时,可以自由取值的数据个数

  • 例:已知样本均值 个观测值 ,则第 个值 被唯一确定:

    → 只有 个值“自由” → 自由度 =

  • 一般规则

    • 计算样本方差时,用 估计了 (1 个参数)→ df =

贝塞尔校正(Bessel’s Correction)

在估计总体方差 时,使用:

而非 ,原因如下:

  • 因为 来自同一组数据,导致 系统性偏小
  • 除以 (而非 )可使 ,即无偏估计
  • 自由度 正是校正的来源。

关键联系

  • 样本方差的自由度 =

  • (卡方分布自由度 =

  • t 统计量自由度 =


4.1 正态总体的抽样分布(三大分布)

设总体 为简单随机样本,样本均值 样本方差(使用贝塞尔校正):

📌 重要性质:

  • (卡方分布,自由度
  • ,即** 相互独立**(仅在正态总体下成立!)

三大抽样分布的构造与用途:

分布构造方式概率密度/定义用途
卡方分布 ,则
特例
 •
 •
非负偏态分布,自由度 用于方差检验拟合优度检验
t 分布 且独立,则 对称、尾部比正态厚,小样本均值检验 未知)
F 分布 且独立,则 非负偏态,自由度 方差比检验ANOVA(方差分析)

📌 正态总体下的关键统计量分布:

  1. 已知

    → 用于Z 检验置信区间(大样本或 已知)

  2. 未知(需用 估计):

    t 检验(小样本推断的核心)

  3. 两个独立正态样本(方差齐性检验):

    ,则

    ,则

    此性质仅在正态总体下成立,是 t 分布严格成立的基础。


4.2 贝塞尔校正(Bessel’s Correction)使用场景

场景是否使用 说明
描述手头数据的离散程度(如全班成绩)❌ 用 此时计算的是样本自身的方差,非估计总体
从样本推断总体方差(统计推断)✅ 用 保证 (无偏估计)
计算样本标准差 ✅ 通常仍用 虽然 仍是有偏的,但 无偏是标准做法
最大似然估计(MLE)❌ 用 MLE 不追求无偏,追求似然最大(正态分布下 MLE 方差为
机器学习中的损失函数(如 MSE)❌ 用 关注预测误差,不要求无偏性

默认建议:在统计推断、假设检验、置信区间中,始终使用


4.3 补充:大数定律与中心极限定理(CLT)

是连接概率论与统计推断的桥梁:

  • 大数定律(LLN):(样本均值依概率收敛于期望)
  • 中心极限定理(CLT):
    即使总体非正态,大样本下仍可用 Z/t 近似

4.4. 小结:何时用哪个分布?

问题类型总体分布 是否已知样本量用什么分布?
单样本均值检验正态已知任意
单样本均值检验正态未知小(<30)
单样本均值检验任意未知大(≥30)近似 (CLT)
单样本方差检验正态任意
两样本方差比正态任意
多组均值比较正态、方差齐未知任意F 分布(ANOVA)

统计推断的核心:从样本出发,借助抽样分布(, , )和贝塞尔校正,对总体参数进行估计与检验。

5. 参数估计方法

5.1 点估计(Point Estimation)

目标:用一个具体数值(“点”)估计未知总体参数。

总体参数常用点估计量
均值
方差
比例

注意 是估计量(随机变量),代入数据后得到估计值(一个数)。


5.2 矩估计(Method of Moments, MoM)

思想:令样本矩 = 总体矩,解出参数。

步骤:

  1. 设总体 阶矩 用参数 表示;
  2. 用样本矩 代替;
  3. 解方程得

例子:

  • 指数分布

  • 正态分布

    ⚠️ 注意:矩估计的方差用 ,不是 (因不追求无偏)。

优点:简单、无需分布完整信息。
缺点:可能效率低;不唯一(高维参数时)。


5.3 极大似然估计(MLE,简述)

思想:选择使当前样本出现概率最大的参数值。

  • 对正态分布 ,MLE 为: → 与矩估计相同,但仍用 ,非

MLE 通常具有渐近无偏、高效等优良性质,是现代统计主流方法。


6. 假设检验与区间估计

6.0 核心思想:建模 → 标准化 → 判断

统计推断的统一逻辑

  1. 建模参数:用样本均值 估计总体均值 (点估计);
  2. 建模变异性:用 (已知)或样本标准差 (未知)估计波动大小;
  3. 构建“同分布的模”
    • 总体分布假设(如正态)下,推导标准化统计量(如 )的抽样分布
    • 该分布不依赖未知参数,可查表或计算(如 , );
  4. 构造可接受范围
    • 置信区间:在参数空间中,给出 的合理取值范围;
    • 拒绝域:在统计量空间中,划定“H₀ 下不太可能出现”的区域;
  5. 做出推断
    • 若观测值落在可接受范围内 → 差异可归因于随机波动;
    • 否则 → 认为参数与假设存在统计显著差异

🌟 置信区间与假设检验是同一枚硬币的两面

  • 区间估计回答:“μ 可能是多少?”
  • 假设检验回答:“μ = μ₀ 合理吗?”
  • 二者基于完全相同的概率模型与分布假设

6.1 点估计 vs 区间估计 vs 假设检验

类型目标输出
点估计给出参数的最佳猜测一个数(如
区间估计给出参数的可能范围区间(如
假设检验判断某个假设是否合理接受/拒绝

Z/t 不是估计方法,而是推断工具


6.2 Z 检验与 t 检验

条件统计量分布用途
已知均值检验(Z 检验,标准正态)
未知均值检验(t 检验,小样本)
  • 置信区间(以 为例):
    • 已知:
    • 未知:

关键:点估计值始终是 ,Z/t 仅用于评估其不确定性


6.3 使用场景小结

问题方法
估计 (给出一个值)(点估计)
估计 (给出区间)Z 或 t 置信区间
检验 Z 检验( 已知)或 t 检验( 未知)

Comments

Leave a comment