yesandnoandperhaps

正在加载中

什么是机器学习？

发表于2025-08-14|更新于2025-12-26|作者技术从0开始的机器学习三三卬嘅

|总字数:2k|阅读时长:7分钟

什么是机器学习？

机器学习（Machine Learning, ML） 是人工智能（AI）的一个分支，它让计算机从数据中学习规律，并在没有明确编程的情况下做出预测或决策。

传统编程：规则 + 数据 → 结果
机器学习：数据 + 结果 → 规则（模型）

举例：

输入：过去三年的房价与房屋面积数据
输出：房价预测模型
应用：预测未来房子的价格

机器学习的分类

监督学习（Supervised Learning）

有标签的数据
任务：
- 回归（预测连续值）
- 分类（预测类别）

无监督学习（Unsupervised Learning）

无标签的数据
任务：
- 聚类
- 降维

强化学习（Reinforcement Learning）

模型在环境中试错学习
核心概念：
- Agent（智能体）
- Environment（环境）
- Reward（奖励）
- Policy（策略）

机器学习流程

数据收集：CSV、数据库、爬虫、API
数据预处理：缺失值、异常值、归一化
特征工程：特征选择、编码、提取
模型选择：选择算法（线性回归、随机森林等）
模型训练：用训练集学习
模型评估：MSE、准确率、F1-score
模型优化：调参、正则化、集成学习
部署应用：保存模型并上线

监督学习（Supervised Learning）

监督学习（Supervised Learning）是机器学习中的一种核心方法，它通过已有的标注数据来训练模型，使模型能够对未知数据进行预测或分类。简而言之，监督学习的目标是学习一个从输入到输出的映射关系。

核心概念

输入（Features）
指模型用来做预测的特征数据。例如房屋面积、房间数量、地段等。通常用 $x$ 表示。
输出（Labels / Targets）
指模型需要预测的结果。例如房价、是否会患病、图像所属类别等。通常用 $y$ 表示。
训练数据（Training Data）
包含已知输入和对应输出的样本，用于训练模型。
测试数据（Test Data）
用于评估模型性能的独立样本，不能在训练中使用。

常见类型

回归（Regression）
预测连续数值。例如预测房价、股票价格、温度等。
分类（Classification）
预测离散类别。例如垃圾邮件识别、图像分类、疾病诊断等。

流程概览

数据收集与标注。
特征工程（数据清洗、特征选择与转换）。
模型训练（利用训练数据拟合模型）。
模型评估（用测试数据计算准确率、均方误差等指标）。
部署与预测（将训练好的模型应用于新数据）。

特点

依赖高质量标注数据。
模型输出是已知类别或数值。
对新数据的预测依赖于训练过程中学到的映射关系。

系列文章所有符号介绍

数据与特征

符号	类型	含义	维度 / 备注
$x^{(i)}$	标量 / 向量	第 $i$ 个样本的特征	$\displaystyle x^{(i)} \in \begin{cases} \mathbb{R}, & n=1 \\ \mathbb{R}^n, & n>1 \end{cases}$
$x_j^{(i)}$	标量	第 $i$ 个样本的第 $j$ 个特征分量	$j = 1, \dots, n$
$X$	矩阵 / 张量	样本特征矩阵或高阶输入	$X \in \mathbb{R}^{m \times n}$ ，多维输入可扩展到 $X \in \mathbb{R}^{m \times H \times W \times C}$
$\mathcal{D}$	集合	数据集	$\mathcal{D} = \{(x^{(i)}, y^{(i)})\}_{i=1}^{m}$
$\mathcal{X}$	集合	特征空间	限定 $f(x)$ 可接受的输入

标签与预测

符号	类型	含义	维度 / 备注
$y^{(i)}$	标量 / 向量	第 $i$ 个样本的真实标签	单输出标量，多输出向量 $y^{(i)} \in \mathbb{R}^c$
$y_j^{(i)}$	标量	第 $i$ 个样本的第 $j$ 个输出分量	$j = 1, \dots, c$
$Y$	矩阵	样本集合真实标签	$Y \in \mathbb{R}^{m \times c}$
$\hat{y}^{(i)}$	标量 / 向量	第 $i$ 个样本预测值	$\hat{y}^{(i)} = f(x^{(i)})$
$\hat{y}_j^{(i)}$	标量	第 $i$ 个样本的第 $j$ 个预测分量	对应 $y_j^{(i)}$
$\hat{Y}$	矩阵	样本集合预测值	$\hat{Y} \in \mathbb{R}^{m \times c}$
$f(x)$	函数 / 预测值	预测函数或预测值	当 $x \in \mathcal{X}$ 时表示预测值 $\hat{y}$ ，输出标量/向量依任务而定
$f(X)$	函数 / 预测值	批量预测函数输出	输出 $\hat{Y}$

模型参数

符号	类型	含义	维度 / 备注
$w$	向量	权重向量	$w \in \mathbb{R}^n$
$w_j$	标量	第 $j$ 个特征权重	与 $x_j$ 对应
$b$	标量 / 向量	偏置	单输出标量，多输出 $b \in \mathbb{R}^c$
$\theta$	向量 / 参数集	所有模型参数	可包含 $w, b$ 或深度网络权重
$\hat{\theta}$	向量	参数估计	MLE / MAP 得到的值

激活函数与神经网络

符号	类型	含义	维度 / 备注
$z$	标量 / 向量	神经元线性组合输入	$z = w^T x + b$
$a$	向量	激活值 / 神经元输出	$a = \phi(z)$
$\phi(z)$	函数	激活函数	ReLU, Sigmoid, tanh 等
$\sigma(z)$	函数	Sigmoid 激活	$\sigma(z) = 1/(1+e^{-z})$
$Z^{[l]}$	矩阵	第 $l$ 层线性组合	$n^{[l]} \times m$
$A^{[l]}$	矩阵	第 $l$ 层激活输出	$n^{[l]} \times m$

损失与优化

符号	类型	含义	维度 / 备注
$\ell(\hat{y}^{(i)}, y^{(i)})$	标量	单样本损失函数	可为 MSE, Cross-Entropy 等
$\mathcal{L}(\theta)$	标量	总损失函数	$\mathcal{L}(\theta) = \frac{1}{m} \sum_{i=1}^m \ell(\hat{y}^{(i)}, y^{(i)}) + R(\theta)$
$\nabla_\theta \mathcal{L}$	向量	损失梯度	用于梯度下降
$\eta$	标量	学习率	控制更新步长
$\epsilon$	标量	随机噪声 / 残差	回归残差常用

正则化

符号	类型	含义
$\lambda$	标量	正则化系数
$\|w\|_2^2$	标量	L2 正则（Ridge / 权重衰减）
$\|w\|_1$	标量	L1 正则（Lasso / 稀疏模型）

概率与统计

符号	类型	含义
$p(y	x)$	概率
$\mathbb{E}[\cdot]$	运算符	期望
$\text{Var}[\cdot]$	运算符	方差
$\mathbb{I}[\cdot]$	函数	指示函数， $\mathbb{I}[condition] = 1$ if True else 0

批量与张量（深度学习常用）

符号	类型	含义	维度 / 备注
$X_{batch}$	矩阵 / 张量	批量输入	$X_{batch} \in \mathbb{R}^{m_{batch} \times n}$
$Y_{batch}$	矩阵	批量标签	$Y_{batch} \in \mathbb{R}^{m_{batch} \times c}$
$W^{[l]}$	矩阵	第 $l$ 层权重矩阵	$n^{[l]} \times n^{[l-1]}$
$B^{[l]}$	向量	第 $l$ 层偏置	$n^{[l]} \times 1$

线性回归（Linear Regression）模型简介

线性回归是最经典、最基础的回归方法之一，用于预测连续数值型目标。它假设目标变量与一个或多个特征之间存在线性关系。

通俗图解

假设我们需要根据房屋距离市中心距离来预测每平米房价，我们前期已经获取了部分数据后使用最小二乘法得到如图：

什么是机器学习？

https://yesandnoandperhaps.cn/posts/9d09a089.html

文章作者

版权声明

转载、引用等请声明出处。

技术从0开始的机器学习

相关推荐

什么是线性回归（Linear Regression）？

线性回归是机器学习中最基础的监督学习算法之一，用于建立输入特征与目标变量之间的线性关系模型。本文详细介绍了线性回归的基本概念、数学形式以及不同类型，包括一元线性回归（单变量）和多元线性回归（多变量）。重点讲解了最小二乘法(OLS)与梯度下降法的原理与推导过程，通过最小化预测值与真实值之间的误差平方和来估计模型参数。文章包含直观的图表展示误差计算过程，从一元到多元情形的数学推导，以及Python实现代码（包括纯NumPy实现和scikit-learn应用）。对于一元回归，推导出了斜率和截距的显式解；对于多元情形，展示了矩阵形式的解。内容循序渐进，适合机器学习初学者理解线性回归的核心原理。

什么是损失函数？

损失函数是机器学习的核心组件，用于量化模型预测与真实值之间的差异。在训练过程中，模型通过最小化损失函数来优化参数，从而提高预测准确性。对于回归问题，常用均方误差（MSE）计算预测值与真实值的平方差，适用于数据分布均匀的情况；若数据存在离群点，平均绝对误差（MAE）更鲁棒；Huber损失则结合了MSE和MAE的优点，在误差较小时使用平方损失，较大时切换为线性损失。在分类任务中，交叉熵损失（二分类或多分类）衡量预测概率分布与真实标签的差距，尤其擅长惩罚“高置信度错误”。此外，Hinge损失（如SVM）关注分类边界，最大化决策间隔。实际训练时，损失函数常与正则化项（L1/L2）结合，防止模型过拟合。选择合适的损失函数需考虑任务类型、数据分布及优化目标，直接影响模型的最终性能。

Chinese2025库文档

一个关于汉语的数据库，未来还会添加更多功能，目前已有广韵查询，方言查询，常见拟音搜索功能，永明体检测，古体诗注韵，古诗注声调、韵。

Triangle-calculations-yes库文档

Triangle-calculations-yes支持计算面积、周长、重心、外心、内心、垂心、费马点、拿破仑点

Chinese2025库方言序号

Python内置函数

var meting_api='https://api.injahow.cn/meting/?server=:server&type=:type&id=:id&r=:r'内置函数 – – – – abs() 返回绝对值 divmod() 将除数和余数结合成一个元组 input() 输入数据后返回string类型 open() 打开文件 staticmethod() 返回函数的静态方法 all() 判断给定的可迭代参数iterable中所有元素是否存在0、空、None、False；若有返回False，反之返回True enumerate() 将一个可迭代对象组合为一个索引序列，返回结果为一个元组，包含索引和对应的元素 int() 转换字符串或数字为整型 ord() 返回一个字符的Unicode码点 str() 字符串 any() 判断给定的可迭代参数iterable中所有元素是否全为0、空、None、False；若是返回False，反之返回True eval() 执行一个字符串表达式，并返回表达式的值 isinstance() 判断对象类型 pow() 计算数的次方的值 sum() 对序列求和 execfile() 执行一个文件 issubclass() 判断class是否是类型参数classinfo的子类 print() 打印输出 super() 调用父类的一个方法 bin() 返回一个int或long int的二进制表示。 iter() 生成迭代器 property() 获取属性值，设置属性值，删除属性，属性文档字符串 tuple() 将列表转换为元组 bool() 将给定参数转换为布尔类型，若无参数，返回 False filter() 过滤序列，返回新列表 len() 返回对象长度或项目个数 range() 创建一个整数列表 type() 传递一个参数时返回对象类型，三个参数时返回新类型对象 bytearray() 返回一个新字节数组。此数组中元素可变，并每个元素值范围在：0 <= x < 256 float() 转换整数或字符串为浮点数 list() 将元组转换为列表 callable() 检查一个对象是否可调用 format() ...

数据加载中

文字文章名分类与标签

App 图标

yesandnoandperhaps

安装PWA应用程序，离线阅读与沉浸体验兼得