一、 感知机:神经网络的基石 (1957年, Frank Rosenblatt)​
  1. ​基本模型与原理​

    • ​数学模型​​: 输出 = f(w*x + b)

    • ​核心组件​​:

      • ​输入 (x)​​: 数据信号。

      • ​权重 (w)​​: 控制输入信号重要性的参数。

      • ​偏置 (b)​​: 调整神经元被激活的难易程度的参数。

      • ​激活函数 (f)​​: 最初使用​​阶跃函数​​,进行​​二分类​​(输出0或1)。

    • ​核心特点​​: 具有​​线性(加权求和)​​ 与​​非线性(激活函数)​​ 相结合的特性,提供明确的分类决策。

  2. ​经典应用与证明​

    • 通过设置特定的 (w1, w2, b)参数值,可以模拟​​与门(AND)​​、​​或门(OR)​​、​​与非门(NAND)​​ 等线性可分的逻辑功能。

    • ​意义​​: 证明了感知机处理线性可分问题的能力。

  3. ​根本局限性:异或问题​

    • ​问题​​: 无法解决​​异或门(XOR)​​ 问题。

    • ​本质原因​​: 异或门是​​线性不可分​​的,无法用一条直线在二维平面上划分。这暴露了单层感知机的核心局限——只能表示线性空间。

  4. ​解决方案:多层感知机(MLP)​

    • ​核心思想​​: 引入​​隐藏层​​,构建更深的网络结构。

    • ​如何解决​​: 通过多层网络和非线性激活函数,组合多条“决策边界”,将输入空间变换到更高维度以实现线性可分,从而解决异或等复杂问题。MLP是最简单的深度神经网络。

​二、 多层感知机(MLP)的构成与核心概念​
  1. ​网络架构​

    • ​隐藏层​​: 网络的关键,其​​层数​​和​​每层的神经元数量(大小)​​ 是重要的​​超参数​​。

    • ​多分类处理​​: 在输出层使用 ​​Softmax​​ 函数,将输出转换为概率分布,用于处理多分类问题。

  2. ​激活函数:神经网络的灵魂​

    • ​作用​​: 决定神经元如何被激活,引入非线性,是神经网络能够拟合任何复杂函数的关键。

    • ​性质要求​​: 连续可导的非线性函数、计算简单、导数值域合适。

    • ​常见类型​​:

      • ​Sigmoid​​: 将输入压缩到 (0, 1) 区间。

      • ​Tanh​​: 将输入压缩到 (-1, 1) 区间。

      • ​ReLU​​: 最常用的激活函数,计算高效 f(x) = max(0, x)

​三、 神经网络的训练与学习机制​
  1. ​学习本质​​: 通过调整网络的​​连接权值(参数w和b)​​,使网络的输出不断接近期望的输出。

  2. ​训练过程:反向传播​

    • ​前向传播​​: 输入数据从输入层 → 隐藏层 → 输出层,计算得到预测结果和​​损失函数​​(预测值与真实值的差距)。

    • ​反向传播​​: ​​核心算法​​。将损失从输出层向输入层反向传播,利用​​链式法则​​计算每个参数对于损失的​​梯度​​。

    • ​参数更新​​: 使用​​梯度下降​​等优化算法,根据梯度迭代更新参数,以​​最小化损失函数​​。

​四、 模型评估、优化与关键挑战​
  1. ​误差概念​

    • ​训练误差​​: 模型在​​训练集​​上的误差,反映“学习”或“记忆”能力。

    • ​泛化误差​​: 模型在​​未知新数据​​(测试集)上的误差,衡量真正的预测能力,是终极目标。

  2. ​数据集划分策略​

    • ​训练集​​: 用于​​训练模型参数​​ (w, b)。

    • ​验证集​​: 用于​​调整超参数​​和监控训练、选择模型。可多次使用。

    • ​测试集​​: 用于​​最终评估​​模型性能,为防止数据泄露,​​通常只使用一次​​。

    • ​K折交叉验证​​: 数据稀缺时评估模型稳定性的有效方法。

  3. ​关键挑战:过拟合 vs. 欠拟合​

    • ​欠拟合​​:

      • ​表现​​: 模型过于简单,​​训练误差和测试误差都很高​​。

      • ​原因​​: 模型能力不足、训练不够。

    • ​过拟合​​:

      • ​表现​​: 模型过于复杂,​​训练误差很低,但测试误差很高​​。

      • ​原因​​: 模型记住了训练数据的噪声和细节,而非一般规律。

    • ​核心原则​​: 使​​模型复杂度​​与​​问题复杂度​​相匹配。

  4. ​影响模型效果的因素与优化​

    • ​模型复杂度​​: 参数数量、参数值范围。

    • ​数据复杂度​​: 样本数量、特征数量、数据多样性。

    • ​正则化方法​​: 防止过拟合的有效技术。

      • ​权重衰减 (L2正则化)​​: 约束参数值过大。

      • ​暂退法 (Dropout)​​: 随机丢弃神经元,增强鲁棒性。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐