什么是机器学习?

机器学习(Machine Learning, ML) 是人工智能(AI)的一个分支,它让计算机从数据中学习规律,并在没有明确编程的情况下做出预测或决策

传统编程:规则 + 数据 → 结果
机器学习:数据 + 结果 → 规则(模型)

举例:

  • 输入:过去三年的房价与房屋面积数据
  • 输出:房价预测模型
  • 应用:预测未来房子的价格

机器学习的分类

监督学习(Supervised Learning)

  • 有标签的数据
  • 任务:
    • 回归(预测连续值)
    • 分类(预测类别)

无监督学习(Unsupervised Learning)

  • 无标签的数据
  • 任务:
    • 聚类
    • 降维

强化学习(Reinforcement Learning)

  • 模型在环境中试错学习
  • 核心概念:
    • Agent(智能体)
    • Environment(环境)
    • Reward(奖励)
    • Policy(策略)

机器学习流程

  1. 数据收集:CSV、数据库、爬虫、API
  2. 数据预处理:缺失值、异常值、归一化
  3. 特征工程:特征选择、编码、提取
  4. 模型选择:选择算法(线性回归、随机森林等)
  5. 模型训练:用训练集学习
  6. 模型评估:MSE、准确率、F1-score
  7. 模型优化:调参、正则化、集成学习
  8. 部署应用:保存模型并上线

监督学习(Supervised Learning)

监督学习(Supervised Learning)是机器学习中的一种核心方法,它通过已有的标注数据来训练模型,使模型能够对未知数据进行预测或分类。简而言之,监督学习的目标是学习一个从输入到输出的映射关系。

核心概念

  1. 输入(Features)
    指模型用来做预测的特征数据。例如房屋面积、房间数量、地段等。通常用xx表示。

  2. 输出(Labels / Targets)
    指模型需要预测的结果。例如房价、是否会患病、图像所属类别等。通常用yy表示。

  3. 训练数据(Training Data)
    包含已知输入和对应输出的样本,用于训练模型。

  4. 测试数据(Test Data)
    用于评估模型性能的独立样本,不能在训练中使用。

常见类型

  1. 回归(Regression)
    预测连续数值。例如预测房价、股票价格、温度等。

  2. 分类(Classification)
    预测离散类别。例如垃圾邮件识别、图像分类、疾病诊断等。

流程概览

  1. 数据收集与标注。
  2. 特征工程(数据清洗、特征选择与转换)。
  3. 模型训练(利用训练数据拟合模型)。
  4. 模型评估(用测试数据计算准确率、均方误差等指标)。
  5. 部署与预测(将训练好的模型应用于新数据)。

特点

  • 依赖高质量标注数据
  • 模型输出是已知类别或数值
  • 对新数据的预测依赖于训练过程中学到的映射关系。

系列文章所有符号介绍

数据与特征

符号 类型 含义 维度 / 备注
x(i)x^{(i)} 标量 / 向量 ii 个样本的特征 x(i){R,n=1Rn,n>1\displaystyle x^{(i)} \in \begin{cases} \mathbb{R}, & n=1 \\ \mathbb{R}^n, & n>1 \end{cases}
xj(i)x_j^{(i)} 标量 ii 个样本的第 jj 个特征分量 j=1,,nj = 1, \dots, n
XX 矩阵 / 张量 样本特征矩阵或高阶输入 XRm×nX \in \mathbb{R}^{m \times n},多维输入可扩展到 XRm×H×W×CX \in \mathbb{R}^{m \times H \times W \times C}
D\mathcal{D} 集合 数据集 D={(x(i),y(i))}i=1m\mathcal{D} = \{(x^{(i)}, y^{(i)})\}_{i=1}^{m}
X\mathcal{X} 集合 特征空间 限定 f(x)f(x) 可接受的输入

标签与预测

符号 类型 含义 维度 / 备注
y(i)y^{(i)} 标量 / 向量 ii 个样本的真实标签 单输出标量,多输出向量 y(i)Rcy^{(i)} \in \mathbb{R}^c
yj(i)y_j^{(i)} 标量 ii 个样本的第 jj 个输出分量 j=1,,cj = 1, \dots, c
YY 矩阵 样本集合真实标签 YRm×cY \in \mathbb{R}^{m \times c}
y^(i)\hat{y}^{(i)} 标量 / 向量 ii 个样本预测值 y^(i)=f(x(i))\hat{y}^{(i)} = f(x^{(i)})
y^j(i)\hat{y}_j^{(i)} 标量 ii 个样本的第 jj 个预测分量 对应 yj(i)y_j^{(i)}
Y^\hat{Y} 矩阵 样本集合预测值 Y^Rm×c\hat{Y} \in \mathbb{R}^{m \times c}
f(x)f(x) 函数 / 预测值 预测函数或预测值 xXx \in \mathcal{X} 时表示预测值 y^\hat{y},输出标量/向量依任务而定
f(X)f(X) 函数 / 预测值 批量预测函数输出 输出 Y^\hat{Y}

模型参数

符号 类型 含义 维度 / 备注
ww 向量 权重向量 wRnw \in \mathbb{R}^n
wjw_j 标量 jj 个特征权重 xjx_j 对应
bb 标量 / 向量 偏置 单输出标量,多输出 bRcb \in \mathbb{R}^c
θ\theta 向量 / 参数集 所有模型参数 可包含 w,bw, b 或深度网络权重
θ^\hat{\theta} 向量 参数估计 MLE / MAP 得到的值

激活函数与神经网络

符号 类型 含义 维度 / 备注
zz 标量 / 向量 神经元线性组合输入 z=wTx+bz = w^T x + b
aa 向量 激活值 / 神经元输出 a=ϕ(z)a = \phi(z)
ϕ(z)\phi(z) 函数 激活函数 ReLU, Sigmoid, tanh 等
σ(z)\sigma(z) 函数 Sigmoid 激活 σ(z)=1/(1+ez)\sigma(z) = 1/(1+e^{-z})
Z[l]Z^{[l]} 矩阵 ll 层线性组合 n[l]×mn^{[l]} \times m
A[l]A^{[l]} 矩阵 ll 层激活输出 n[l]×mn^{[l]} \times m

损失与优化

符号 类型 含义 维度 / 备注
(y^(i),y(i))\ell(\hat{y}^{(i)}, y^{(i)}) 标量 单样本损失函数 可为 MSE, Cross-Entropy 等
L(θ)\mathcal{L}(\theta) 标量 总损失函数 L(θ)=1mi=1m(y^(i),y(i))+R(θ)\mathcal{L}(\theta) = \frac{1}{m} \sum_{i=1}^m \ell(\hat{y}^{(i)}, y^{(i)}) + R(\theta)
θL\nabla_\theta \mathcal{L} 向量 损失梯度 用于梯度下降
η\eta 标量 学习率 控制更新步长
ϵ\epsilon 标量 随机噪声 / 残差 回归残差常用

正则化

符号 类型 含义
λ\lambda 标量 正则化系数
w22|w|_2^2 标量 L2 正则(Ridge / 权重衰减)
w1|w|_1 标量 L1 正则(Lasso / 稀疏模型)

概率与统计

符号 类型 含义
$p(y x)$ 概率
E[]\mathbb{E}[\cdot] 运算符 期望
Var[]\text{Var}[\cdot] 运算符 方差
I[]\mathbb{I}[\cdot] 函数 指示函数,I[condition]=1\mathbb{I}[condition] = 1 if True else 0

批量与张量(深度学习常用)

符号 类型 含义 维度 / 备注
XbatchX_{batch} 矩阵 / 张量 批量输入 XbatchRmbatch×nX_{batch} \in \mathbb{R}^{m_{batch} \times n}
YbatchY_{batch} 矩阵 批量标签 YbatchRmbatch×cY_{batch} \in \mathbb{R}^{m_{batch} \times c}
W[l]W^{[l]} 矩阵 ll 层权重矩阵 n[l]×n[l1]n^{[l]} \times n^{[l-1]}
B[l]B^{[l]} 向量 ll 层偏置 n[l]×1n^{[l]} \times 1

线性回归(Linear Regression)模型简介

线性回归是最经典、最基础的回归方法之一,用于预测连续数值型目标。它假设目标变量与一个或多个特征之间存在线性关系

通俗图解

假设我们需要根据房屋距离市中心距离来预测每平米房价,我们前期已经获取了部分数据后使用最小二乘法得到如图: