什么是机器学习?
什么是机器学习?
机器学习(Machine Learning, ML) 是人工智能(AI)的一个分支,它让计算机从数据中学习规律,并在没有明确编程的情况下做出预测或决策。
传统编程:规则 + 数据 → 结果
机器学习:数据 + 结果 → 规则(模型)
举例:
- 输入:过去三年的房价与房屋面积数据
- 输出:房价预测模型
- 应用:预测未来房子的价格
机器学习的分类
监督学习(Supervised Learning)
- 有标签的数据
- 任务:
- 回归(预测连续值)
- 分类(预测类别)
无监督学习(Unsupervised Learning)
- 无标签的数据
- 任务:
- 聚类
- 降维
强化学习(Reinforcement Learning)
- 模型在环境中试错学习
- 核心概念:
- Agent(智能体)
- Environment(环境)
- Reward(奖励)
- Policy(策略)
机器学习流程
- 数据收集:CSV、数据库、爬虫、API
- 数据预处理:缺失值、异常值、归一化
- 特征工程:特征选择、编码、提取
- 模型选择:选择算法(线性回归、随机森林等)
- 模型训练:用训练集学习
- 模型评估:MSE、准确率、F1-score
- 模型优化:调参、正则化、集成学习
- 部署应用:保存模型并上线
监督学习(Supervised Learning)
监督学习(Supervised Learning)是机器学习中的一种核心方法,它通过已有的标注数据来训练模型,使模型能够对未知数据进行预测或分类。简而言之,监督学习的目标是学习一个从输入到输出的映射关系。
核心概念
-
输入(Features)
指模型用来做预测的特征数据。例如房屋面积、房间数量、地段等。通常用表示。 -
输出(Labels / Targets)
指模型需要预测的结果。例如房价、是否会患病、图像所属类别等。通常用表示。 -
训练数据(Training Data)
包含已知输入和对应输出的样本,用于训练模型。 -
测试数据(Test Data)
用于评估模型性能的独立样本,不能在训练中使用。
常见类型
-
回归(Regression)
预测连续数值。例如预测房价、股票价格、温度等。 -
分类(Classification)
预测离散类别。例如垃圾邮件识别、图像分类、疾病诊断等。
流程概览
- 数据收集与标注。
- 特征工程(数据清洗、特征选择与转换)。
- 模型训练(利用训练数据拟合模型)。
- 模型评估(用测试数据计算准确率、均方误差等指标)。
- 部署与预测(将训练好的模型应用于新数据)。
特点
- 依赖高质量标注数据。
- 模型输出是已知类别或数值。
- 对新数据的预测依赖于训练过程中学到的映射关系。
系列文章所有符号介绍
数据与特征
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
标量 / 向量 | 第 个样本的特征 | ||
标量 | 第 个样本的第 个特征分量 | ||
矩阵 / 张量 | 样本特征矩阵或高阶输入 | ,多维输入可扩展到 | |
集合 | 数据集 | ||
集合 | 特征空间 | 限定 可接受的输入 |
标签与预测
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
标量 / 向量 | 第 个样本的真实标签 | 单输出标量,多输出向量 | |
标量 | 第 个样本的第 个输出分量 | ||
矩阵 | 样本集合真实标签 | ||
标量 / 向量 | 第 个样本预测值 | ||
标量 | 第 个样本的第 个预测分量 | 对应 | |
矩阵 | 样本集合预测值 | ||
函数 / 预测值 | 预测函数或预测值 | 当 时表示预测值 ,输出标量/向量依任务而定 | |
函数 / 预测值 | 批量预测函数输出 | 输出 |
模型参数
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
向量 | 权重向量 | ||
标量 | 第 个特征权重 | 与 对应 | |
标量 / 向量 | 偏置 | 单输出标量,多输出 | |
向量 / 参数集 | 所有模型参数 | 可包含 或深度网络权重 | |
向量 | 参数估计 | MLE / MAP 得到的值 |
激活函数与神经网络
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
标量 / 向量 | 神经元线性组合输入 | ||
向量 | 激活值 / 神经元输出 | ||
函数 | 激活函数 | ReLU, Sigmoid, tanh 等 | |
函数 | Sigmoid 激活 | ||
矩阵 | 第 层线性组合 | ||
矩阵 | 第 层激活输出 |
损失与优化
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
标量 | 单样本损失函数 | 可为 MSE, Cross-Entropy 等 | |
标量 | 总损失函数 | ||
向量 | 损失梯度 | 用于梯度下降 | |
标量 | 学习率 | 控制更新步长 | |
标量 | 随机噪声 / 残差 | 回归残差常用 |
正则化
符号 | 类型 | 含义 |
---|---|---|
标量 | 正则化系数 | |
标量 | L2 正则(Ridge / 权重衰减) | |
标量 | L1 正则(Lasso / 稀疏模型) |
概率与统计
符号 | 类型 | 含义 |
---|---|---|
$p(y | x)$ | 概率 |
运算符 | 期望 | |
运算符 | 方差 | |
函数 | 指示函数, if True else 0 |
批量与张量(深度学习常用)
符号 | 类型 | 含义 | 维度 / 备注 |
---|---|---|---|
矩阵 / 张量 | 批量输入 | ||
矩阵 | 批量标签 | ||
矩阵 | 第 层权重矩阵 | ||
向量 | 第 层偏置 |
线性回归(Linear Regression)模型简介
线性回归是最经典、最基础的回归方法之一,用于预测连续数值型目标。它假设目标变量与一个或多个特征之间存在线性关系。
通俗图解
假设我们需要根据房屋距离市中心距离来预测每平米房价,我们前期已经获取了部分数据后使用最小二乘法得到如图: