分类: 从0开始的机器学习

发表于2025-08-14

线性回归是机器学习中最基础的监督学习算法之一，用于建立输入特征与目标变量之间的线性关系模型。本文详细介绍了线性回归的基本概念、数学形式以及不同类型，包括一元线性回归（单变量）和多元线性回归（多变量）。重点讲解了最小二乘法(OLS)与梯度下降法的原理与推导过程，通过最小化预测值与真实值之间的误差平方和来估计模型参数。文章包含直观的图表展示误差计算过程，从一元到多元情形的数学推导，以及Python实现代码（包括纯NumPy实现和scikit-learn应用）。对于一元回归，推导出了斜率和截距的显式解；对于多元情形，展示了矩阵形式的解。内容循序渐进，适合机器学习初学者理解线性回归的核心原理。

什么是损失函数？

发表于2025-08-14

损失函数是机器学习的核心组件，用于量化模型预测与真实值之间的差异。在训练过程中，模型通过最小化损失函数来优化参数，从而提高预测准确性。对于回归问题，常用均方误差（MSE）计算预测值与真实值的平方差，适用于数据分布均匀的情况；若数据存在离群点，平均绝对误差（MAE）更鲁棒；Huber损失则结合了MSE和MAE的优点，在误差较小时使用平方损失，较大时切换为线性损失。在分类任务中，交叉熵损失（二分类或多分类）衡量预测概率分布与真实标签的差距，尤其擅长惩罚“高置信度错误”。此外，Hinge损失（如SVM）关注分类边界，最大化决策间隔。实际训练时，损失函数常与正则化项（L1/L2）结合，防止模型过拟合。选择合适的损失函数需考虑任务类型、数据分布及优化目标，直接影响模型的最终性能。

什么是机器学习？

发表于2025-08-14

机器学习（Machine Learning, ML）是人工智能的核心领域，它让计算机通过数据自动学习规律，而非依赖硬编码规则。本指南系统介绍了机器学习的基本概念、主要分类（监督学习、无监督学习、强化学习）及典型应用场景，重点解析了监督学习中的线性回归模型原理。通过房价预测等实例，配合可视化图表和流程图，生动展示了机器学习从数据收集、特征工程到模型训练评估的全流程，帮助初学者快速理解机器学习如何通过算法从历史数据中发现模式，并应用于预测分析、分类决策等实际问题。