formula
高等数学
1. 泰勒公式家族(等价无穷小之源)
核心思想:泰勒公式是“全集”,等价无穷小是其“子集”。放在一起记忆,以泰勒公式为纲。
皮亚诺余项刻画了麦克劳林(或泰勒)展开式在 (或 )时的局部逼近精度。 余项的阶数 表示:展开式已包含所有不超过阶的非零项(即使某些系数为 0),且误差比更高阶。 如对 :
但由于是奇函数,其系数为0,因此余项可以直接写到,即:
家族一:指数与对数族
- 指数函数
记忆技巧:分母是阶乘,符号全为正。
衍生等价无穷小:
- 对数函数
记忆技巧:分母是自然数,符号正负交替。
衍生等价无穷小:
进阶等价:
家族二:三角函数族
- 正弦函数
记忆技巧:只含奇数次项,符号正负交替。
衍生等价无穷小:
进阶等价:
- 余弦函数
记忆技巧:只含偶数次项,符号正负交替。可以看作是 sinxsinx 求导后的结果。
衍生等价无穷小:
- 正切函数
记忆技巧:可以通过 做多项式除法得到。
衍生等价无穷小:
进阶等价:
家族三:反三角函数族
- 反正弦函数
记忆技巧:只有奇数次项,系数均为正。
衍生等价无穷小:
进阶等价:
- 反正切函数
记忆技巧:形式类似 ln(1+x)ln(1+x),但分母是奇数。
衍生等价无穷小:
进阶等价:
家族四:二项式家族(核心!)
- 广义二项式定理(万能)
收敛域:
- 若 为非负整数:对所有 收敛(有限项多项式)。
- 若 :收敛域为 ;
- 当 时,在 处收敛;
- 当 时,在 均发散。
记忆技巧:系数是组合数形式 。这是万能公式,许多其他公式可由它推出。
衍生等价无穷小:
- 常用特例
- 平方根()
- 几何级数()
2. 导数公式家族
家族一:基本初等函数
家族二:反函数族
家族三:经典复合函数
3. 积分公式家族
家族一:基本积分表
家族二:含 和 的积分
家族三:三角相关积分
家族四:常用积分结论(对称性、区间再现等)
线性代数
符号规范(MIT / Strang 标准)
- 行列式:
- 转置:
- 伴随矩阵:
- 秩:
- 零空间(核): 或
- 列空间:
- 迹:
1. 行列式(Determinant)
1.1 基本性质
设 ,:
- ,若
几何意义: 表示单位立方体经 变换后的体积; 表示空间被压缩到低维(列线性相关)。
1.2 伴随矩阵与行列式
-
定义: 是 的代数余子式矩阵的转置。
-
恒等式:
-
逆矩阵表达(当 ):
-
行列式关系:
1.3 伴随矩阵的秩(高频考点)
2. 矩阵运算(Matrix Operations)
2.1 转置与逆
- (若 可逆)
2.2 正交矩阵
- 定义:
- 性质:,,保持向量长度与夹角。
3. 秩(Rank)
3.1 基本性质
- 若 可逆,则
3.2 秩与矩阵结构
- 列空间维数 = 行空间维数
- 满秩方阵 ⇔ 可逆 ⇔
4. 特征值与矩阵函数(Eigenvalues)
4.1 基本关系
设 的特征值为 :
4.2 函数变换
- 的特征值:
- 的特征值:()
- 的特征值:( 为多项式)
4.3 对称矩阵特例
若 :
- 所有
- 存在正交对角化:
- 正定 ⇔ 所有
5. 四大基本子空间(The Four Fundamental Subspaces)
5.1 定义与维度
对 ,记 :
| 子空间 | 符号 | 维度 |
|---|---|---|
| 列空间 | ||
| 零空间 | ||
| 行空间 | ||
| 左零空间 |
5.2 正交关系
几何:行空间与零空间构成 的正交直和分解。
6. 秩–零化度定理(Rank–Nullity Theorem)
6.1 定理陈述
6.2 应用
- 齐次方程 的基础解系含 个线性无关解。
- 判断解的唯一性:若 ,则只有零解。
7. 投影与最小二乘(Projection & Least Squares)
7.1 投影矩阵
若 列满秩,投影到 的矩阵为:
性质:,
7.2 最小二乘解
当 无解,最优解满足正规方程:
误差向量 满足 (正交于列空间)。
8. 矩阵分解(Matrix Factorizations)
8.1 LU 分解(LU Factorization)
- 条件:矩阵 可通过高斯消元化为上三角形式,且所有顺序主子式非零(或消元过程中主元均不为零)。
- 形式:
其中:
- 是单位下三角矩阵(对角线元素为 1),
- 是上三角矩阵。
- 用途:
- 高效求解线性方程组 :先解 (前向代入),再解 (回代);
- 避免重复消元,适用于多个右端项 的情形;
- 是理解高斯消元的矩阵视角( 记录消元乘子)。
⚠️ 注意:若消元需行交换,则需引入置换矩阵 ,得到 PLU 分解:。
8.2 QR 分解
-
条件: 且 列满秩(,通常 )。
-
形式:,其中 , 上三角可逆
-
构造方法(Gram-Schmidt 过程): 对 到 :
-
用途:
- 稳定求解最小二乘问题: 的最小二乘解等价于 (因 ),避免 的病态。
- 数值线性代数基础(如特征值算法中的 QR 迭代)。
- 为 SVD 和正交化提供预处理。
⚠️ 注意:
给定具体矩阵,可能要求手动执行 Gram-Schmidt 得到 ,务必掌握两步:正交化 → 单位化。
8.3 奇异值分解(SVD)
-
条件:任意实矩阵 (不要求方阵、对称、满秩)。
-
形式:
其中:
-
:左奇异向量矩阵,正交(),
-
:右奇异向量矩阵,正交(),
-
:奇异值矩阵,对角形式
其中 , 称为 奇异值。
-
-
奇异值与特征值的关系:
- 的特征向量 = 的列(右奇异向量),
- 的特征向量 = 的列(左奇异向量)。
-
几何意义(MIT 核心洞见):
SVD 揭示了线性变换 的本质结构:- 先由 将输入空间 旋转/反射到主轴坐标系,
- 再由 沿坐标轴缩放(奇异值为缩放因子),
- 最后由 将结果旋转/反射到输出空间 。
⇒ 任何矩阵都是“旋转–缩放–旋转”的组合。
-
关键性质:
-
非零奇异值的个数,
-
(谱范数 = 最大奇异值),
-
(Frobenius 范数),
-
最佳低秩近似(Eckart–Young 定理):
是所有秩 ≤ 矩阵中对 的最佳逼近(在 Frobenius 或谱范数下)。
-
-
伪逆(Moore–Penrose Inverse):
当 无解或无穷多解时,最小二乘最小范数解为:是将 中非零 取倒数并转置得到的 矩阵。
-
用途:
- 降维(PCA 本质是 SVD),
- 图像压缩(保留前 个奇异值),
- 推荐系统(矩阵补全),
- 病态方程求解(截断小奇异值),
- 机器学习中的嵌入与表示。
✅ 与 QR 对比:
- QR 仅适用于列满秩矩阵,且不揭示矩阵的“内在尺度”;
- SVD 适用于任意矩阵,直接给出信息量排序(),是更本质的分解。
8.4 QR 与 SVD 在最小二乘中的角色对比
| 方法 | 适用条件 | 数值稳定性 | 是否揭示秩 | 是否适用于秩亏 |
|---|---|---|---|---|
| 正规方程 | 列满秩 | 差() | 否 | 否 |
| QR | 列满秩 | 好 | 否 | 否 |
| SVD | 任意 | 最佳 | 是 | 是 |
若 列满秩且规模小,可用 QR;若涉及秩、病态或概念,SVD 是终极工具。
9. 二次型与正定性(Quadratic Forms)
9.1 定义
二次型:(通常取 )
任一实二次型可写为:
其中 为实对称矩阵,称为二次型的矩阵。
注:若给定多项式形式(如 ),需先写出对称矩阵 (交叉项系数平分)。
9.2 正定判别
以下等价(对实对称 ):
- 对所有
- 所有特征值
- 所有顺序主子式
- 存在可逆 使
9.3 正交变换法(谱分解法)——适用于实对称矩阵
若 ,则:
- 正交()
- 特征值
- 二次型 的极值由 控制
正定 ⇔ 所有 ⇔ 所有顺序主子式
目标:通过正交变换 (),将二次型化为标准形:
考试步骤:
- 写出对称矩阵
- 求 的特征值 (解 )
- 对每个特征值,求单位正交特征向量(Gram-Schmidt 正交化,如需要)
- 构造正交矩阵
- 令 ,则标准形为
✅ 优点:保持向量长度(正交变换是旋转/反射),几何意义清晰。
✅ MIT 视角:这就是实对称矩阵的 谱分解 的直接应用。
⚠️ 考试注意:若题目说“用正交变换化标准形”,必须用此法,配方法不得分!
9.4 配方法(Lagrange Method)——通用但需技巧
目标:通过可逆线性变换(不要求正交),将二次型化为标准形(平方和)。
考试步骤(以三元为例):
情形 1:含平方项(如 )
-
以含 的项为核心,将所有含 的交叉项配成完全平方
-
例如:
-
令 ,代入后对剩余变量继续配方
情形 2:无平方项(只有交叉项,如 )
-
先作预变换引入平方项,例如:
-
再对新变量配方
最终目标:
其中
✅ 优点:计算快,不需求特征值
❌ 缺点:变换矩阵 一般不正交,不能用于求主轴方向或保持几何结构
⚠️ 考试注意:若题目只说“化为标准形”或“规范形”,配方法可接受;若要求“正交变换”,则必须用 10.2
9.5 标准形 vs 规范形 vs 惯性定理
-
标准形:系数为任意非零实数(如 )
-
规范形:系数仅为 (由惯性定理保证唯一)
其中:
- = 正惯性指数(正特征值个数)
- = 负惯性指数(负特征值个数)
🔑 Sylvester 惯性定理:
无论用何种可逆变换, 和 是不变量!
⇒ 可用于判断两二次型是否合同(即是否存在可逆 使 )
9.6 正定性判别(考试高频)
实对称矩阵 对应的二次型 :
| 性质 | 判别条件 |
|---|---|
| 正定 | 所有特征值 所有顺序主子式 正惯性指数 |
| 负定 | 所有特征值 奇数阶主子式 ,偶数阶 |
| 半正定 | 所有特征值 且 |
⚠️ 考试陷阱:
“所有主子式 > 0” ≠ “正定”!必须是顺序主子式(左上角 )
9.7 谱分解 vs 配方法:考试策略对比
| 题目要求 | 推荐方法 | 理由 |
|---|---|---|
| “用正交变换化标准形” | 谱分解(10.2) | 配方法变换非正交,不符合题意 |
| “化二次型为标准形” | 配方法(10.3) | 更快,避免解高次特征方程 |
| “求正/负惯性指数” | 谱分解 或 配方法 | 两种方法均可得 |
| “判断正定性” | 顺序主子式 或 特征值 | 主子式通常更快 |
10. 思维要点(几何与代数统一)
- 与 有相同的非零特征值。
- Frobenius 范数:
- 投影矩阵的迹 = 秩(因特征值为 0 或 1)
- 若 是正交矩阵,则 ,
- ⇔ 列线性相关 ⇔ 体积坍缩 ⇔ 无逆
- 求解 ⇔ 在列空间中找 的线性组合
- 特征向量 = 方向不变,特征值 = 伸缩比例
- SVD = 任意矩阵的“最佳坐标系”:先旋转,再缩放,再旋转
- 最小二乘 = 正交投影 = 误差最短
- 可以用行列式打开局面,国内考试常以行列式为切入点构造综合题,需熟练转化伴随、逆、秩等关系。
概率论与数理统计
1. 离散型分布
| 分布 | 分布律 | 期望 | 方差 |
|---|---|---|---|
| 0-1分布 | |||
| 二项分布 | |||
| 泊松分布 | |||
| 几何分布 (无记忆性) |
2. 连续型分布
| 分布 | 概率密度 | 期望 | 方差 |
|---|---|---|---|
| 均匀分布 | |||
| 指数分布 (无记忆性) | |||
| 正态分布 |
注:标准正态密度的归一化依赖高斯积分:
3. 数字特征
3.1 期望(数学期望)
-
基本性质:
-
样本均值的期望(重要统计结论):
→ 样本均值 是总体均值 的无偏估计。
3.2 方差
-
定义与恒等式:
-
基本性质:
-
独立可加性:若 两两不相关(特别地,若独立),则
-
样本均值的方差:
-
样本方差的期望(贝塞尔校正的核心):
3.3 协方差与相关系数
-
协方差定义:
-
性质:
-
相关系数:
-
独立 ⇒ 不相关,但不相关 ⇏ 独立(除非联合正态)。
3.4 高阶矩与常用恒等式
k 阶原点矩:
-
k 阶中心矩:
- 一阶中心矩 = 0
- 二阶中心矩 = 方差
- 三阶中心矩 → 偏度(skewness)
- 四阶中心矩 → 峰度(kurtosis)
-
方差分解公式(全方差公式,用于分层抽样等):
-
协方差的计算技巧:
3.5 正态分布下的特殊性质(关键!)
-
若 ,则:
- 与 独立 ⇔ (正态分布下不相关即独立)
- 条件分布 仍为正态
-
样本均值与样本方差独立:
若 ,则→ 这是 t 分布成立的基础!
4. 数理统计基础结论
4.0 自由度与贝塞尔校正
什么是自由度?
自由度(df)是指在计算某个统计量时,可以自由取值的数据个数。
-
例:已知样本均值 和 个观测值 ,则第 个值 被唯一确定:
→ 只有 个值“自由” → 自由度 = 。
-
一般规则:
- 计算样本方差时,用 估计了 (1 个参数)→ df =
贝塞尔校正(Bessel’s Correction)
在估计总体方差 时,使用:
而非 ,原因如下:
- 因为 来自同一组数据,导致 系统性偏小;
- 除以 (而非 )可使 ,即无偏估计;
- 自由度 正是校正的来源。
关键联系:
样本方差的自由度 =
(卡方分布自由度 = )
t 统计量自由度 =
4.1 正态总体的抽样分布(三大分布)
设总体 , 为简单随机样本,样本均值 ,样本方差(使用贝塞尔校正):
📌 重要性质:
- (卡方分布,自由度 )
- ,即** 与 相互独立**(仅在正态总体下成立!)
三大抽样分布的构造与用途:
| 分布 | 构造方式 | 概率密度/定义 | 用途 |
|---|---|---|---|
| 卡方分布 | 若 ,则 特例: • • | 非负偏态分布,自由度 | 用于方差检验、拟合优度检验 |
| t 分布 | 若 , 且独立,则 | 对称、尾部比正态厚, 时 | 小样本均值检验( 未知) |
| F 分布 | 若 , 且独立,则 | 非负偏态,自由度 | 方差比检验、ANOVA(方差分析) |
📌 正态总体下的关键统计量分布:
-
当 已知:
→ 用于Z 检验、置信区间(大样本或 已知)
-
当 未知(需用 估计):
→ t 检验(小样本推断的核心)
-
两个独立正态样本(方差齐性检验):
若 ,则
若 ,则 。
此性质仅在正态总体下成立,是 t 分布严格成立的基础。
4.2 贝塞尔校正(Bessel’s Correction)使用场景
| 场景 | 是否使用 ? | 说明 |
|---|---|---|
| 描述手头数据的离散程度(如全班成绩) | ❌ 用 | 此时计算的是样本自身的方差,非估计总体 |
| 从样本推断总体方差(统计推断) | ✅ 用 | 保证 (无偏估计) |
| 计算样本标准差 | ✅ 通常仍用 | 虽然 仍是有偏的,但 无偏是标准做法 |
| 最大似然估计(MLE) | ❌ 用 | MLE 不追求无偏,追求似然最大(正态分布下 MLE 方差为 ) |
| 机器学习中的损失函数(如 MSE) | ❌ 用 | 关注预测误差,不要求无偏性 |
✅ 默认建议:在统计推断、假设检验、置信区间中,始终使用 。
4.3 补充:大数定律与中心极限定理(CLT)
是连接概率论与统计推断的桥梁:
- 大数定律(LLN):(样本均值依概率收敛于期望)
- 中心极限定理(CLT):
→ 即使总体非正态,大样本下仍可用 Z/t 近似
4.4. 小结:何时用哪个分布?
| 问题类型 | 总体分布 | 是否已知 | 样本量 | 用什么分布? |
|---|---|---|---|---|
| 单样本均值检验 | 正态 | 已知 | 任意 | |
| 单样本均值检验 | 正态 | 未知 | 小(<30) | |
| 单样本均值检验 | 任意 | 未知 | 大(≥30) | 近似 (CLT) |
| 单样本方差检验 | 正态 | — | 任意 | |
| 两样本方差比 | 正态 | — | 任意 | |
| 多组均值比较 | 正态、方差齐 | 未知 | 任意 | F 分布(ANOVA) |
统计推断的核心:从样本出发,借助抽样分布(, , )和贝塞尔校正,对总体参数进行估计与检验。
5. 参数估计方法
5.1 点估计(Point Estimation)
目标:用一个具体数值(“点”)估计未知总体参数。
| 总体参数 | 常用点估计量 |
|---|---|
| 均值 | |
| 方差 | |
| 比例 |
注意: 和 是估计量(随机变量),代入数据后得到估计值(一个数)。
5.2 矩估计(Method of Moments, MoM)
思想:令样本矩 = 总体矩,解出参数。
步骤:
- 设总体 阶矩 用参数 表示;
- 用样本矩 代替;
- 解方程得 。
例子:
-
指数分布 :
⇒ -
正态分布 :
⚠️ 注意:矩估计的方差用 ,不是 (因不追求无偏)。
✅ 优点:简单、无需分布完整信息。
❌ 缺点:可能效率低;不唯一(高维参数时)。
5.3 极大似然估计(MLE,简述)
思想:选择使当前样本出现概率最大的参数值。
- 对正态分布 ,MLE 为: → 与矩估计相同,但仍用 ,非 。
MLE 通常具有渐近无偏、高效等优良性质,是现代统计主流方法。
6. 假设检验与区间估计
6.0 核心思想:建模 → 标准化 → 判断
统计推断的统一逻辑:
- 建模参数:用样本均值 估计总体均值 (点估计);
- 建模变异性:用 (已知)或样本标准差 (未知)估计波动大小;
- 构建“同分布的模”:
- 在总体分布假设(如正态)下,推导标准化统计量(如 或 )的抽样分布;
- 该分布不依赖未知参数,可查表或计算(如 , );
- 构造可接受范围:
- 置信区间:在参数空间中,给出 的合理取值范围;
- 拒绝域:在统计量空间中,划定“H₀ 下不太可能出现”的区域;
- 做出推断:
- 若观测值落在可接受范围内 → 差异可归因于随机波动;
- 否则 → 认为参数与假设存在统计显著差异。
🌟 置信区间与假设检验是同一枚硬币的两面:
- 区间估计回答:“μ 可能是多少?”
- 假设检验回答:“μ = μ₀ 合理吗?”
- 二者基于完全相同的概率模型与分布假设。
6.1 点估计 vs 区间估计 vs 假设检验
| 类型 | 目标 | 输出 |
|---|---|---|
| 点估计 | 给出参数的最佳猜测 | 一个数(如 ) |
| 区间估计 | 给出参数的可能范围 | 区间(如 ) |
| 假设检验 | 判断某个假设是否合理 | 接受/拒绝 |
Z/t 不是估计方法,而是推断工具!
6.2 Z 检验与 t 检验
| 条件 | 统计量 | 分布 | 用途 |
|---|---|---|---|
| 已知 | 均值检验(Z 检验,标准正态) | ||
| 未知 | 均值检验(t 检验,小样本) |
- 置信区间(以 为例):
- 已知:
- 未知:
✅ 关键:点估计值始终是 ,Z/t 仅用于评估其不确定性。
6.3 使用场景小结
| 问题 | 方法 |
|---|---|
| 估计 (给出一个值) | (点估计) |
| 估计 (给出区间) | Z 或 t 置信区间 |
| 检验 | Z 检验( 已知)或 t 检验( 未知) |
Comments
Leave a comment