我们将从四个最核心的视角,为你系统性地梳理深度学习的庞大体系:
按网络结构分类:我们将探寻模型的内在“骨架”,理解如前馈神经网络的直接、循环神经网络的记忆与卷积神经网络的洞察力是如何由不同的连接方式造就的。
按学习范式分类:我们将洞察模型如何“学习”,从监督学习的名师指导,到无监督学习的自学成才,再到强化学习的与环境博弈试错,每一种都是获取智慧的不同路径。
按任务模式分类:我们将厘清模型的核心“目标”,分清旨在“决策”的判别式模型与旨在“创造”的生成式模型之间的根本区别。
按架构创新分类:我们将回顾那些闪耀的“里程碑”,如Transformer、GAN等,了解它们突破了何种桎梏,从而开创了全新的研究方向。
未来,无论你遇到何种新模型、新算法 ,都能快速地将它在这张地图上“定位”,理解它的来龙去脉、核心思想与适用场景。
一、按网络结构分类(最核心的分类)
这个角度根据神经元 之间的连接方式和数据流动的拓扑结构进行分类。
| 分类 | 代表模型 | 核心思想与结构特点 | 信息流动方式 | 典型应用 |
|---|---|---|---|---|
| 前馈神经网络 | 多层感知机(MLP) | 由全连接层组成,是最基础的网络结构。 | 单向传播,无循环或反馈。 | 简单的分类与回归任务。 |
| 卷积神经网络(CNN) | 通过卷积核提取局部特征,具有参数共享和平移不变性。 | 单向传播,无循环或反馈。 | 图像识别、目标检测、图像生成。 | |
| 反馈神经网络 | 循环神经网络(RNN) | 具有循环连接,使网络具备记忆功能,能处理变长序列。 | 单向传播,但具有内部循环反馈。 | 自然语言处理、时间序列预测。 |
| 长短期记忆网络(LSTM) | RNN的变体,引入“门控机制”以解决长程依赖问题。 | 单向传播,但具有内部循环反馈。 | 机器翻译、语音识别、文本生成。 | |
| 门控循环单元(GRU) | LSTM的简化变体,合并了门控单元,参数更少,计算效率更高。 | 单向传播,但具有内部循环反馈。 | 同LSTM,资源受限的场景。 | |
| 特殊连接结构网络 | Transformer | 完全基于自注意力机制,并行化处理序列,能捕捉全局依赖关系。 | 本质上为前馈,但通过注意力权重实现全局信息交互。 | 机器翻译、文本摘要(BERT, GPT等模型的基础)。 |
| 图神经网络(GNN) | 专为处理图结构数据设计,通过聚合邻居信息来更新节点表征。 | 信息在图节点之间传播(非序列也非网格)。 | 社交网络分析、推荐系统、药物发现。 | |
| 脉冲神经网络 | 脉冲神经网络(SNN) | 第三代神经网络,模拟生物大脑,使用离散脉冲和时间动力学编码信息。 | 基于事件驱动的异步传播。 | 神经形态计算、低功耗边缘AI、脑机接口。 |
补充说明与关系解读
层次关系:
- 前馈和反馈结构是基础。
- 特殊连接结构(如Transformer、GNN)是在基础结构上为特定数据类型和任务设计的创新架构。
- 脉冲神经网络则采用了完全不同的信息编码和处理范式,是一个独特的分支。
- 混合架构:
在实际应用中,这些结构常常被混合使用以发挥各自优势。例如: - CNN + RNN/LSTM:用于视频描述(CNN提取帧特征,RNN生成描述语句)。
- CNN + Transformer:用于视觉Transformer(ViT),将图像切块后送入Transformer处理。
二、按学习范式分类
这个角度关注模型如何从数据中学习以及学习的目标。
| 学习范式 | 核心思想 | 数据要求 | 典型模型/算法 | 典型任务 |
|---|---|---|---|---|
| 监督学习 | 学习从输入到输出的映射函数。模型通过比较预测输出与已知标签之间的误差来进行训练。 | 大量带标签的数据 (输入数据 + 对应的真实输出) | • 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • 全连接神经网络 (MLP) • Transformer (用于有监督任务) | • 图像分类 • 目标检测 • 语音识别 • 机器翻译 |
| 无监督学习 | 发现数据中内在的、未标注的模式或结构。没有“正确答案”作为指导。 | 没有任何标签的数据 (只有输入数据) | • 自编码器 (AE) • 生成对抗网络 (GAN) * • 聚类算法 (如Deep Clustering) • 主成分分析 (PCA) 的深度版本 | • 数据降维与可视化 • 异常检测 • 数据聚类 • 关联规则学习 |
| 半监督学习 | 同时利用少量标注数据和大量未标注数据进行训练,以降低对标注数据的依赖。 | 少量带标签数据 + 大量未标注数据 | • Π-model • Temporal Ensembling • Mean Teacher • 伪标签 | • 在标注成本高的领域(如医学图像分析)中提升模型性能 |
| 自监督学习 | 无监督学习的一种。通过从数据自身构造预训练任务(Pretext Task) 来学习数据的表征,无需人工标注。 | 没有任何人工标签的数据 (但算法会自行构造标签) | • BERT (掩码语言模型) • SimCLR, MoCo (对比学习) • GPT (自回归语言模型) | • 预训练大语言模型 • 为下游任务学习通用特征表示 • 图像、视频的表示学习 |
| 强化学习 | 智能体通过与环境交互,根据获得的奖励(或惩罚)信号来学习最优决策策略。学习过程是“试错”的。 | 不需要静态数据集,需要环境、奖励函数和交互产生的状态-动作-奖励序列。 | • 深度Q网络 (DQN) • 策略梯度方法 (如A3C) • 深度确定性策略梯度 (DDPG) • AlphaGo, AlphaZero | • 游戏AI (如AlphaStar) • 机器人控制 • 自动驾驶决策 • 资源优化管理 |
补充说明与关系解读
生成对抗网络 (GAN) 的归属: GAN 的训练过程同时包含了监督和无监督的成分。判别器 (Discriminator) 的学习是一个典型的有监督任务(判断真伪),而生成器 (Generator)
的目标是欺骗判别器,其学习过程是无监督的。因此,常将其整体视为一种强大的无监督生成模型。
自监督学习 vs. 无监督学习:
共同点:都不需要人工标注的标签。
核心区别:自监督学习会主动地、巧妙地从数据中构造出监督信号(如遮盖单词、旋转图片然后预测),从而学习到非常高质量的数据表示。而无监督学习更直接地探索数据分布(如聚类、降维)。
关系:自监督学习是无监督学习领域近年来最重大的突破之一,它极大地提升了无监督学习的效果。
范式间的结合:
在实际应用中,这些范式并非泾渭分明,而是常常结合使用:
预训练 + 微调:这是最常见的模式。首先使用自监督或无监督学习在海量无标签数据上进行预训练,学习通用特征表示;然后使用监督学习在少量有标签的特定任务数据上进行微调。例如,BERT、GPT的用法。
强化学习中的监督信号:在一些强化学习算法中,可能会利用模仿学习(从专家示范中学习),这又引入了监督学习的成分。
三、按任务模式分类
这个角度关注模型的输出是什么,用于解决什么具体任务。
| 分类 | 核心目标 | 学习内容 | 典型应用 | 代表模型与架构 |
|---|---|---|---|---|
| 判别式模型 | 学习决策边界,对输入数据进行分类、回归或判别。 | 学习 P(Y|X):在给定输入数据X的条件下,输出Y(标签或值)的概率分布。 | • 图像分类 • 目标检测 • 语音识别 • 情感分析 • 序列标注 | • 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • Transformer (如BERT) • 全连接神经网络 (MLP) |
| 生成式模型 | 学习数据本身的分布,并能够生成新的、与训练数据相似的数据样本。 | 学习 P(X):输入数据X本身的概率分布。或 P(X|Y):给定标签Y条件下,数据X的分布。 | • 图像生成 • 文本创作 • 语音合成 • 数据增强 • 风格迁移 | • 生成对抗网络 (GAN) • 变分自编码器 (VAE) • 扩散模型 (如DDPM) • 自回归模型 (如GPT, PixelRNN) |
补充说明与关系解读
直观理解:
判别式模型关心的是“区分”和“抉择”。它学会了在不同类别的数据之间“划界线”。它的问题是:“根据特征X,它最可能属于哪个类别?”
生成式模型关心的是“创造”和“合成”。它学会了每个类数据“长什么样”。它的问题是:“一个特定的类别,它的特征X应该是什么样的?”
生成式模型也可用于判别任务:
理论上,如果生成式模型学到了数据分布 P(X) 和先验分布 P(Y),它可以通过贝叶斯定理 P(Y|X) ∝ P(X|Y)P(Y) 来计算后验概率,从而进行分类。但这通常计算复杂且效果不如直接训练判别式模型。
联系与结合:
对抗训练:生成对抗网络(GAN)是两者结合的完美例子。它内部同时包含一个生成式模型(Generator) 和一个判别式模型(Discriminator),两者通过对抗博弈共同进步。
预训练-微调:许多先进的生成式模型(如GPT、扩散模型)学到的强大数据表征,可以被用来初始化判别式任务的模型,提升其性能。这体现了生成式学习对判别式任务的促进作用。
四、按架构创新分类
这个角度关注那些引入了关键新思想或组件的著名架构。
| 创新架构类别 | 核心创新思想 | 解决的关键问题 | 代表性模型 | 引发的新方向 |
|---|---|---|---|---|
| 深度架构 | 堆叠多个隐藏层,实现多层次的特征抽象与转换。 | 传统浅层模型无法处理高度复杂的非线性问题。 | • Deep Belief Network (DBN) • Stacked Autoencoders | 开启了“深度”学习时代,证明了深度的重要性。 |
| 卷积架构 | 局部连接、权重共享和池化,极大地减少了参数数量并保留了空间信息。 | 全连接网络处理图像时参数爆炸且无法有效利用空间局部性。 | • LeNet • AlexNet • VGG • ResNet | 现代计算机视觉的基石,推动了图像领域的革命。 |
| 门控循环架构 | 引入门控机制(输入门、遗忘门、输出门)精细控制信息的流动和记忆的保留与遗忘。 | 传统RNN存在梯度消失/爆炸问题,难以学习长期依赖关系。 | • LSTM • GRU | 使RNN真正变得实用,成为处理序列数据的首选架构。 |
| 注意力与Transformer架构 | 自注意力机制:让序列中的每个元素直接与所有元素交互,并行计算且能捕获长程依赖。 | RNN的序列计算模式无法并行,效率低下;CNN对长程依赖捕捉能力弱。 | • Transformer • BERT • GPT | 带来了NLP的革命,并逐渐向多模态(Vision Transformer)扩展,成为大模型的基础。 |
| 生成对抗架构 | 通过生成器和判别器的对抗博弈过程进行训练,无需显式的似然计算。 | 如何有效学习和生成复杂的高维数据分布(如图像)。 | • GAN (DCGAN, StyleGAN) | 推动了高质量图像生成的发展,开启了生成模型的“对抗”时代。 |
| 扩散模型架构 | 通过一个前向加噪和反向去噪的马尔可夫链过程来学习数据分布。 | GAN训练不稳定、模式崩塌;传统生成模型生成质量不高。 | • DDPM • Stable Diffusion | 当前图像生成领域的SOTA,在生成质量和稳定性上表现卓越。 |
| 记忆增强架构 | 为网络引入外部记忆模块,像计算机的内存一样,可以进行信息的读写和存储。 | 标准网络缺乏长期、大量的记忆存储和精确检索能力。 | • Neural Turing Machine (NTM) • Memory Networks | 增强了网络的推理能力和处理需要知识库的任务的能力。 |
| 注意力与Transformer架构 | 自注意力机制:让序列中的每个元素直接与所有元素交互,并行计算且能捕获长程依赖。 | RNN的序列计算模式无法并行,效率低下;CNN对长程依赖捕捉能力弱。 | • Transformer • BERT • GPT | 带来了NLP的革命,并逐渐向多模态(Vision Transformer)扩展,成为大模型的基础。 |
| 图神经网络架构 | 专为非欧几里得空间的图数据设计,通过邻域聚合(消息传递)来学习节点和图的表征。 | 传统神经网络无法有效处理图结构这种不规则的关系数据。 | • GCN • GAT • GraphSAGE | 将深度学习成功应用于社交网络、推荐系统、化学等关系型领域。 |
| 稀疏架构 | 并非所有神经元或专家都需要被激活,通过稀疏激活的机制来扩大模型容量但控制计算量。 | 模型参数越来越大,计算成本和能耗越来越高。 | • Mixture of Experts (MoE) | 构建万亿参数级别超大模型的关键技术(如Switch Transformer)。 |
补充说明与演进关系
创新是叠加的,而非替代的:这些架构创新并非互相排斥,而是常常被结合使用。例如:
ResNet = 深度架构 + 卷积架构 + 跳跃连接(一种创新)
Vision Transformer = Transformer架构 + 卷积架构(用于patch embedding)
扩散模型 也常常使用 U-Net(一种卷积架构) 作为去噪网络。
推动领域发展的核心:表格中的每一项创新都极大地推动了一个甚至多个子领域的发展。例如,卷积架构推动了CV,Transformer架构推动了NLP,GNN架构推动了图学习。
从专用到通用:许多最初为特定领域设计的架构,后来被发现具有通用性。最典型的例子是 Transformer,它从NLP起源,现在正逐步成为处理多模态数据的通用 backbone。
总结
这些分类角度并非互斥,一个模型通常可以同时属于多个类别。例如:
BERT模型:是基于Transformer架构的、采用自监督学习范式进行预训练的、主要用于判别式任务的模型。
深度强化学习:是深度学习(用于感知环境)和强化学习(用于决策)的结合。
理解这些分类有助于您根据具体任务(如图像识别、文本生成 、游戏AI)选择最合适的模型架构和学习方法。
PS:关于表示学习
先给结论:表示学习不属于和监督学习、无监督学习平行的分类范式,它是一类侧重数据特征学习的技术方向,可同时适用于监督学习和无监督学习场景;核心用途是自动从原始数据中提取有用的特征表示,降低后续任务的处理难度。
📌 范畴关系梳理
机器学习有两种常用分类维度,分类逻辑完全不同:
监督学习/无监督学习是按训练数据标注形式划分的学习范式分类,核心区分依据是训练数据是否带有人工标注标签7 9。
表示学习是按学习目标划分的技术方向分类,核心目标是学习数据的有效特征表示,它不与监督/无监督学习形成对立,而是可以嵌套在两种范式中使用20。
🧩 表示学习在不同范式中的应用场景
表示学习可以适配监督、无监督两种学习范式,具体对比如下:
学习范式 是否可以包含表示学习 应用形式
监督学习 是 在分类/回归任务中,让模型自动学习特征提取,替代人工设计特征,最后接监督分类/回归头20
无监督学习 是 从未标注原始数据中学习数据的内在结构表示,最常见的无监督预训练就是典型场景20
(补充说明)目前大模型的预训练阶段基本都采用无监督表示学习,通过大规模无标注文本学习通用语义表示,再通过微调适配下游监督任务,是现在主流AI大模型的基础训练逻辑。
🎯 表示学习的主要用途
表示学习解决了传统机器学习中人工设计特征成本高、效果差的问题,核心用途包括三类:
自动提取数据本质特征,将原始高维数据转换为低维稠密表示,降低后续任务的计算复杂度,同时提升模型泛化能力20。
挖掘无标注数据中的隐藏结构,让海量未标注数据可以用于模型训练,解决标注数据不足的问题20。
学习到的通用表示可以迁移到多个下游任务,大幅降低下游任务的训练成本,提升任务效果,这也是当前迁移学习、预训练大模型的核心基础20。
✅ 总结梳理
表示学习和监督/无监督学习不属于同一分类维度,不存在互斥关系,它是一种特征学习技术,可以同时适配监督和无监督两种学习范式;它的核心价值是替代人工特征工程,自动从原始数据中学习有效特征,支撑各类下游AI任务。
————————————————
版权声明:本文为CSDN博主「代码漫叙」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/a246808642/article/details/150467222
评论 (0)