函数与导数
初等数学的研究对象基本上是不变的量,而高等数学的研究对象是变化的量。高等数学对学习编程具有重要的意义,因为编程涉及到许多与数学密切相关的概念和技能。
本章节内容主要源自《高等数学(第七版)》,仅对语序、相似内容做调整。学习更多高等数学知识请移步其他平台。
本章提到的符号含义如下:
{} 表集合、定义域或值域
- A={1,2,3} 表示集合 A 包含元素 1,2,3
- f(x)={y∣y=x2,x∈R} 表示函数 f(x) 的值域是所有 x2 的值,其中 x 是实数。
→ 表逻辑关系,
∣ 表“使得”或“满足”,Ry={y∣y≥0},表示一个实数集合 Ry,其中包含所有满足 y≥0 条件的实数 y。
∈ 表属于,如果 a 是集合 A 的元素,记作 a∈A.
⊆ 表子集,如果 A 是集合 B 的子集(A 与 B 可以相等), 记作 A⊆B.
⊂ 表真子集, 如果 A 是集合 B 的真子集(A 与 B 不相等), 记作 A⊂B.
映射的概念
定义:设 X 和 Y 是两个非空集合,
如果存在一个对应关系 f,使得对于 X 中的任意一个元素 x,在 Y 中都有唯一确定的元素 y 和它对应,
那么就称 f 为从 X 到 Y 的一个映射,记作 f:X→Y,
其中,y 称为 x 在映射 f 下的像,记作 y=f(x)。而 X 中的 元素 x 称为 y 的原像。
并称 X 为f的定义域,记作 Df;
Y 为f的值域,记作 Rf。
Rf=f(X)={f(x)∣x∈Df}
构成一个映射的条件是:
- 集合 X ,即定义域 Df=X
- 集合 Y ,即值域 Rf⊆Y
- 对应法则f,对于 X 中的任意一个元素 x,在 Y 中都有唯一确定的元素 y 和它对应
注意:
对每个 x∈X,f(x) 必须是确定唯一与之对应的
对于 y∈Y,y 可以有多个原像。
例如,f(x)=x2,y=1 的原像可以是 x=1 或 x=−1。
值域 Rf 是 Y 的子集,即 Rf⊆Y,而不一定是 Rf=Y
假设有一辆小电动车,装有一根透明的长管。管子的中点代表零,两端分别象征正无穷和负无穷,管内静置着一颗小球。当车辆运动小球也会跟着运动,小球的数值就是导数。
- 平直道路:当车辆在平坦路面上行驶时,小球始终保持在零点位置。(常数的导数)
- 爬坡下坡:上坡时,由于斜度影响,小球逐渐向正无穷移动;下坡时则向负无穷滑动。
- 悬崖处:如果电动车遇到悬崖直接坠落,这代表函数在此处不连续,也就是不可导。
- 起伏道路:当车辆行驶在起伏不断的路面上时,小球的运动轨迹类似波浪。这种变化与三角函数之间的关系异曲同工:例如,sin 的导数变为 cos。
幂函数求导
幂函数求导的通用法则:
dxdxn=nxn−1
- “指数向前”: 将指数 n 移到变量 x 的前面作为系数。
- “并减一”: 将原指数 n 减去1,得到新的指数 n−1。
-
基本形式:
求 x2 的导数。
将指数2移到前面,并将指数2减去1(2-1=1),所以导数是 2x1=2x。
dxdx2=2x2−1=2x
-
常数乘以幂函数:
求 5x3 的导数。
常数5保持不变,对 x3 使用法则。将指数3移到前面,与常数5相乘,并将指数3减去1。
dxd5x3=5⋅3x3−1=15x2
-
分式形式:
求 x41 的导数。
首先,将分式转化为指数形式:x41=x−4。
然后使用法则,将指数-4移到前面,并将指数-4减去1(−4−1=−5)。
dxdx41=dxdx−4=−4x−4−1=−4x−5=−x54
线性回归
线性回归是利用连续性变量来估计实际数值(例如房价,呼叫次数和总销售额等)。
我们通过线性回归算法找出自变量和因变量间的最佳线性关系,图形上可以确定一条最佳直线。
这条最佳直线就是回归线。这个回归关系可以用Y=aX+b表示。
多个数据可以用Y=β0X0+β1X1+β2X2+……βnXn+ε表示。
损失函数
如何评估数据的离散程度呢?
平均值:数据相加除以数据个数
平均差:数据与平均值的差的绝对值相加除以数据个数
均方误差:数据与平均值的差的平方相加除以数据个数
数据1 | 数据2 | 平均值 | 平均差 | 均方误差 |
---|
0 | 0 | 0 | 0 | 0 |
-4 | 4 | 0 | 4 | 16 |
7 | 1 | 4 | 4 | 25 |
我们预期中,理想效果应该是 0、0 好于 -4、4 好于 7、1。只有均方误差正确的反应了这一点。
在预测出来的值和目标值之间差的部分,我们称之为损失,均方误差常见的用于评估数据离散程度的损失函数,以下是常见的损失函数及其特点
名称 | 数学表达式 | 值域 | 导数表达式 | 优点 | 缺点 |
---|
交叉熵损失(Cross Entropy) | L=−∑iyilog(y^i) | [0,+∞) | ∂y^i∂L=−y^iyi | 最常用,适合 one-hot 标签,梯度清晰,收敛快 | 对异常值敏感,需要防止概率为0的情况 |
均方误差(MSE) | L=n1∑i(yi−y^i)2 | [0,+∞) | ∂y^i∂L=−n2(yi−y^i) | 简单直观,易于理解 | 不适合分类任务,梯度在误差较大时过大 |
平均绝对误差(MAE) | L=n1∑i∣yi−y^i∣ | [0,+∞) | ∂y^i∂L=−n1sgn(yi−y^i) | 对异常值不敏感,稳定性好 | 在零点不可导,优化困难 |
求导