hegangben 发布的文章 - 欢迎来到半导体与芯片的世界

登录

标签搜索

bennyhe

累计撰写 378 篇文章
累计收到 31 条评论

搜索到 378 篇与的结果

2026-04-22
AI专题十九: AI 应用从低级到高级分类山姆·奥特曼提出的官方框架：AI发展的“五个级别”奥特曼在多次访谈中（如2024年的一次闭门分享）清晰地提出了AI能力演进的五个级别，其核心是AI的自主性和解决问题的能力，而非单纯的应用形态。这五个级别是：级别1：对话式AI（Chatbot）：能够进行开放域对话，但仅限于对话本身。代表：ChatGPT的对话模式。级别2：推理者（Reasoner）：能够解决与人类博士水平相当的复杂问题。代表：OpenAI的o1模型。级别3：执行者/智能体（Agent）：能够代表用户主动执行多步骤任务，例如“帮我预定下周的整个行程”。级别4：创新者（Innovator）：能够自主进行研究和创造，提出新的想法和解决方案。级别5：组织者（Organizer）：能够管理一个组织或大型项目，承担类似CEO的职能。结论：奥特曼的框架是 “能力等级”。从AI 应用场景从低级到高级：业界对这类 AI 应用没有一个完全统一的官方标准命名，但目前比较常见的分法，通常会按“能力层级 / 行为方式 / 所在环境”来命名。你提到的四类，可以大致对应成下面这样：1) 对话式 AI常见命名：Conversational AIChatbots / AI ChatbotsLLM assistantsCopilots（偏“辅助型”产品语境）特点：主要在文本/语音对话中完成问答、生成、总结、检索等任务不直接执行复杂动作，更多是“说”和“写”2) 智能体工作流 AI常见命名：AI AgentsAgentic WorkflowsWorkflow AgentsTask AgentsTool-using Agents / Tool-augmented Agents特点：不只是聊天，而是能调用工具、拆解任务、按步骤执行常见于：自动写邮件、查资料、生成报告、调用 API、触发业务流程“Workflow”一词强调人设计流程，AI 执行流程“Agentic”一词强调AI 自主性更强3) 操作电脑的 AI常见命名：Computer-Using Agents (CUA)Computer Use AIDesktop AgentsGUI AgentsBrowser Agents / Web AgentsRPA + AI（在企业场景里常和 RPA 融合提法）特点：AI 直接操作鼠标、键盘、浏览器、桌面软件不依赖 API 接口，而是像人一样看屏幕、点按钮、输入内容典型场景：自动填写表单、跨系统搬运信息、网页操作、后台流程执行这个方向近两年业界很常见的关键词就是 Computer Use 或 Computer-Using Agent。4) 进入物理世界的 AI 机器常见命名：Embodied AIRobotics / AI RoboticsPhysical AIRobot AgentsAutonomous RobotsGeneralist Robots（更偏前沿叙事）特点：AI 不再只在数字世界行动，而是驱动机器人、机械臂、无人设备等需要感知、规划、控制、与真实环境交互典型场景：仓储机器人、工业机械臂、家庭机器人、自动驾驶、无人机等其中：Embodied AI 更强调“具身智能”Physical AI 是近年 NVIDIA 等厂商带火的说法，强调 AI 进入现实物理环境Robotics 则是最通用、最传统的总称一个更常见的业界分层说法如果按“从低到高”或“从虚拟到物理”来概括，常会这样写：Conversational AIAI Agents / Agentic WorkflowsComputer-Using Agents / GUI AgentsEmbodied AI / Physical AI / RoboticsAI 智能等级L0~L5 定义根据搜索结果，目前全球范围内尚未形成像自动驾驶SAE标准那样唯一、权威且被强制遵循的AI智能程度分级标准。但借鉴自动驾驶分级思想，业界已涌现出多个从不同维度对AI智能化程度进行划分的分类框架，这些框架旨在为AI技术的发展路径提供评估坐标。自动驾驶分级标准作为参考基准自动驾驶的分级为AI智能化分级提供了直接的灵感来源。根据国际自动机工程师学会（SAE）的定义，驾驶自动化分为L0至L5六个等级，核心在于明确系统与驾驶员在动态驾驶任务中的角色分配。L0-L2级为辅助驾驶，驾驶员需持续监控；从L3级开始进入自动驾驶范畴，系统可在特定条件下执行全部驾驶任务；L5级为在任何环境下都能实现的完全自动驾驶。这一分级清晰地量化了机器替代人类驾驶的程度1121516。AI智能分级同样希望量化机器在认知、决策和行动任务上替代或辅助人类的程度。AI智能体与Agent能力分级的主要提案业界借鉴自动驾驶分级逻辑，提出了多个AI智能分级方案，其核心在于评估AI的自主决策和执行能力。360创始人周鸿祎提出了五级分类法：L1是仅有对话能力的聊天助手；L2是需人类设置流程的低代码工作流智能体；L3是能自主规划完成任务的推理型智能体（领域专家）；L4是多智能体蜂群协作系统；L5则是具备完全自主意识的超级AI系统26。学术研究领域，有论文将AI智能体分为五个能力级别：从L0的无AI工具，到基于规则的L1，再到应用模仿/强化学习的L2，进而发展到基于大语言模型并具备记忆反思的L3，以及能自主学习和泛化的L4，最高级的L5则引入个性情感与多智能体协作35。OpenAI也建立了内部五级标准，从当前的ChatGPT（接近L2）到能够代表用户行动的L3、能创造新事物的L4，直至能执行组织工作的L5。这些分级框架都将关注点从单一的对话能力，扩展到了AI的任务规划、工具调用、自主执行及多智能体协作能力48。其他领域的智能等级评估标准智能化分级的思想已扩展到更广泛的终端领域。在AI手机领域，中国信息通信研究院联合厂商发布的《终端智能化分级研究报告》定义了L1至L5五个等级，从仅响应指令的L1，到能识别简单意图的L2，再到能处理复杂意图并自主规划的L3，最终发展到能预测意图并基于全场景自主规划的L59。在人形机器人领域，业界也发布了全球首个《人形机器人智能化分级》团体标准，围绕感知认知、决策学习、执行表现和协作交互四大维度，将智能化划分为L1至L5级10。这些标准表明，针对特定应用场景的智能化水平评估正在走向标准化。总结：概念框架而非统一标准综上所述，尽管汽车自动驾驶的L1-L5分级已被国际标准化，但AI智能程度目前尚未形成与之对应的全球统一官方标准。现有的多种分级方案均为企业、学术界或行业组织提出的概念性框架或团体标准，其目的在于为技术演进、产品定位和产业讨论提供参考坐标8。这些分级共同揭示了AI从被动工具到自主智能体的发展路径，有助于公众和业界理解AI技术的发展阶段与未来方向
- 2026年04月22日
- 22 阅读
- 0 评论
- 0 点赞
2026-04-20
AI专题三十三：机器学习——监督学习、无监督学习、半监督学习、强化学习 1 引言机器学习是一种人工智能领域的技术，它旨在让计算机通过学习数据和模式，而不是明确地进行编程来完成任务。机器学习分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）、强化学习（Reinforcement Learning）四种，下面针对每种学习方式做详细介绍。2 监督学习2.1 什么是监督学习定义：根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。简单理解：可以把监督学习理解为我们教机器如何做事情。2.2 监督学习的类别监督学习任务主要包括分类和回归两种类型，在监督学习中，数据集中的样本被称为“训练样本”，并且每个样本都有一个输入特征和相应的标签（分类任务）或目标值（回归任务）。。分类（Classification）：在分类任务中，目标是将输入数据分到预定义的类别中。每个类别都有一个唯一的标签。算法在训练阶段通过学习数据的特征和标签之间的关系来构建一个模型。然后，在测试阶段，模型用于预测未见过的数据的类别标签。例如，将电子邮件标记为“垃圾邮件”或“非垃圾邮件”，将图像识别为“猫”或“狗”。回归（Regression）：在回归任务中，目标是预测连续数值的输出。与分类不同，输出标签在回归任务中是连续的。算法在训练阶段通过学习输入特征和相应的连续输出之间的关系来构建模型。在测试阶段，模型用于预测未见过的数据的输出值。例如，预测房屋的售价、预测销售量等。2.3 常见的监督学习算法监督学习算法种类众多，有着极其广泛的应用，下面是一些常见的监督学习算法：支持向量机（Support Vector Machine，SVM）：SVM是一种用于二分类和多分类任务的强大算法。它通过找到一个最优的超平面来将不同类别的数据分隔开。SVM在高维空间中表现良好，并且可以应用于线性和非线性分类问题。决策树（Decision Trees）：决策树是一种基于树结构的分类和回归算法。它通过在特征上进行递归的二分决策来进行分类或预测。决策树易于理解和解释，并且对于数据的处理具有良好的适应性。逻辑回归（Logistic Regression）：逻辑回归是一种广泛应用于二分类问题的线性模型。尽管名字中带有"回归"，但它主要用于分类任务。逻辑回归输出预测的概率，并使用逻辑函数将连续输出映射到[0, 1]的范围内。K近邻算法（K-Nearest Neighbors，KNN）：KNN是一种基于实例的学习方法。它根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。1.4 监督学习的应用场景监督学习是最常见的机器学习方法之一，在各个领域都有广泛的应用，它的成功在很大程度上得益于其能够从带有标签的数据中学习，并对未见过的数据进行预测和泛化。图像识别：监督学习在图像识别任务中非常常见。例如，将图像分类为不同的物体、场景或动作，或者进行目标检测，找出图像中特定对象的位置。自然语言处理：在自然语言处理任务中，监督学习用于文本分类、情感分析、机器翻译、命名实体识别等。语音识别：监督学习在语音识别领域被广泛应用，例如将语音转换为文本、说话者识别等。医学诊断：在医学领域，监督学习可以用于疾病诊断、影像分析、药物发现等。3 无监督学习3.1 什么是无监督学习定义：我们不知道数据集中数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系。在无监督学习中数据只有特征(feature)无标签(label)，是一种机器学习的训练方式，它本质上是一个统计手段，在没有标签的数据里可以发现潜在的一些结构的一种训练方式。简单理解：比起监督学习，无监督学习更像是自学，让机器学会自己做事情。3.2 无监督学习的类别无监督学习的特点是在训练数据中没有标签或目标值。无监督学习的目标是从数据中发现隐藏的结构和模式，而不是预测特定的标签或目标。无监督学习的主要类别包括以下几种：聚类（Clustering）：聚类是将数据样本分成相似的组别或簇的过程。它通过计算样本之间的相似性度量来将相似的样本聚集在一起。聚类是无监督学习中最常见的任务之一，常用于数据分析、市场细分、图像分割等。降维（Dimensionality Reduction）：降维是将高维数据转换为低维表示的过程，同时尽可能地保留数据的特征。降维技术可以减少数据的复杂性、去除冗余信息，并可用于可视化数据、特征提取等。常见的降维方法有主成分分析（PCA）和t-SNE等。关联规则挖掘（Association Rule Mining）：关联规则挖掘用于发现数据集中项之间的关联和频繁项集。这些规则描述了数据集中不同项之间的关联性，通常在市场篮子分析、购物推荐等方面应用广泛。异常检测（Anomaly Detection）：异常检测用于识别与大多数样本不同的罕见或异常数据点。它在检测异常事件、欺诈检测、故障检测等领域有着重要的应用。无监督学习在数据挖掘、模式识别、特征学习等领域中发挥着重要作用。通过发现数据中的结构和模式，无监督学习有助于我们更好地理解数据，从中提取有用的信息，并为其他任务提供有益的预处理步骤。3.3 常见的无监督学习算法无监督学习算法在不同的问题和数据集上都有广泛的应用。它们帮助我们从未标记的数据中发现有用的结构和模式，并在数据处理、可视化、聚类、降维等任务中发挥着重要的作用。以下是一些常见的无监督学习算法：K均值聚类（K-Means Clustering）：K均值聚类是一种常用的聚类算法，它将数据样本分成K个簇，使得每个样本与所属簇中心的距离最小化。主成分分析（Principal Component Analysis，PCA）：PCA是一种常用的降维算法，它通过线性变换将高维数据投影到低维空间，以保留最重要的特征。关联规则挖掘（Association Rule Mining）：关联规则挖掘是一种发现数据集中项之间关联性的方法，它常用于市场篮子分析、购物推荐等领域。异常检测（Anomaly Detection）：异常检测算法用于识别与大多数样本不同的罕见或异常数据点。常见的方法包括基于统计的方法、基于聚类的方法和基于生成模型的方法等。3.4 无监督学习的应用场景无监督学习在数据挖掘、模式识别、特征学习等应用场景发挥着重要作用。通过无监督学习，我们可以从未标记的数据中获得有用的信息和洞察力，为其他任务提供有益的预处理步骤，并且有助于更好地理解和利用数据。：聚类与分组：无监督学习中的聚类算法可以帮助将数据样本分成相似的组别或簇，例如在市场细分中将顾客分成不同的群体、在图像分割中将图像区域分割成不同的物体等。特征学习与降维：无监督学习的降维算法如PCA和t-SNE可以用于特征学习和可视化高维数据，例如在图像、音频和自然语言处理中，以及用于数据压缩和可视化。异常检测：无监督学习中的异常检测算法可用于发现与大多数数据样本不同的罕见或异常数据点。这在欺诈检测、故障检测和异常事件监测等场景中具有重要应用。关联规则挖掘：无监督学习的关联规则挖掘算法可用于发现数据集中项之间的关联性，常应用于市场篮子分析、购物推荐等领域。4 半监督学习4.1 什么事半监督学习定义：半监督学习的目标是利用同时包含有标签和无标签的数据来构建一个模型，使得模型能够在测试阶段更好地泛化到新的、未见过的数据。半监督学习介于监督学习和无监督学习之间。在半监督学习中，训练数据同时包含有标签的数据和无标签的数据。与监督学习不同的是，半监督学习的训练数据中只有一小部分样本是带有标签的，而大部分样本是没有标签的。通常情况下，获取带有标签的数据可能会比较昂贵或耗费大量的时间，而采集无标签的数据则相对容易和便宜。在半监督学习中，无标签的数据可以起到两个重要作用：利用未标记数据的信息：未标记数据可能包含对数据分布、结构和隐含特征的有用信息，这些信息可以帮助模型更好地进行泛化。利用标记数据的传播效应：通过利用标记数据与无标签数据之间的数据分布相似性，可以通过传播标签信息到无标签样本，进而增强模型的性能。半监督学习是一个非常有意义且有挑战性的问题，它在现实世界的许多场景中都具有实际应用价值。通过充分利用未标记数据，半监督学习可以在某些情况下显著提高模型的性能，并且有助于在数据有限的情况下构建更加健壮和泛化能力强的机器学习模型。4.2 半监督学习的类别半监督学习是介于监督学习和无监督学习之间的一种学习方式，它利用同时包含有标签和无标签数据的训练集来构建模型。半监督学习的类别主要分为以下几种：半监督分类（Semi-supervised Classification）：在半监督分类中，训练数据中同时包含带有标签的样本和无标签的样本。模型的目标是利用这些标签信息和无标签数据的分布信息来提高分类性能。半监督分类算法可以在分类任务中利用未标记数据来扩展有标签数据集，从而提高模型的准确性。半监督回归（Semi-supervised Regression）：半监督回归任务与半监督分类类似，但应用于回归问题。模型通过有标签的数据和无标签数据进行训练，以提高对未标记数据的回归预测准确性。半监督聚类（Semi-supervised Clustering）：半监督聚类算法将有标签数据和无标签数据同时用于聚类任务。它们可以通过结合数据的相似性信息和标签信息，来更好地识别潜在的簇结构。半监督异常检测（Semi-supervised Anomaly Detection）：半监督异常检测任务旨在从同时包含正常样本和异常样本的数据中，利用有限的标签信息来检测异常。这在异常样本较少的情况下特别有用。生成对抗网络（GANs）中的半监督学习：GANs可以被用于实现半监督学习。在这种情况下，生成器和判别器网络可以使用有标签和无标签的样本，以提高生成模型的性能。半监督学习是一种具有挑战性的学习范式，因为它需要充分利用未标记数据，同时还要防止过度拟合未标记数据。在实际应用中，根据问题的性质和可用的数据，选择适当的半监督学习方法和技术，可以帮助提高模型性能和泛化能力。4.3 常见的半监督学习算法半监督学习算法可以在不同的问题和数据集上发挥作用。选择合适的半监督学习算法取决于问题的特性、可用的有标签和无标签数据量，以及算法的性能和复杂度要求。半监督学习在处理数据有限或数据标记成本高昂的场景下具有重要的应用价值。以下是一些常见的半监督学习算法：自训练（Self-Training）：自训练是一种简单的半监督学习方法。它通过使用有标签数据训练一个初始模型，然后使用该模型对未标记数据进行预测，并将置信度较高的预测结果作为伪标签，将未标记数据添加到有标签数据中，然后重新训练模型。协作训练（Co-Training）：协作训练是一种使用多个视图或特征的半监督学习方法。它通过将数据划分为两个或多个视图，并在每个视图上独立训练模型。然后，模型之间相互交互并使用对方的预测结果来增强训练。半监督支持向量机（Semi-Supervised Support Vector Machines）：半监督支持向量机是基于支持向量机的半监督学习方法。它利用有标签数据和未标记数据之间的关系来学习一个更好的分类器。生成式半监督学习（Generative Semi-Supervised Learning）：这类方法尝试使用生成模型来建模数据的分布，并利用有标签和无标签数据共同训练生成模型，以提高对未标记数据的预测。半监督深度学习：近年来，许多深度学习方法已经扩展到半监督学习。这些方法通过在深度神经网络中引入半监督性质，如半监督自编码器（Semi-Supervised Autoencoders）等，来利用未标记数据的信息。图半监督学习（Graph-based Semi-Supervised Learning）：图半监督学习方法利用数据样本之间的关系来辅助半监督学习。这些方法通常利用图模型或图卷积神经网络（GCN）来利用数据的拓扑结构。4.4 半监督学习的应用场景半监督学习在许多实际应用场景中具有重要的应用价值，尤其在数据有限或数据标记成本高昂的情况下。以下是一些半监督学习的应用场景：自然语言处理：在自然语言处理任务中，很多时候获取大规模的标记数据是非常昂贵和耗时的。半监督学习可以利用少量有标签的文本数据和大量未标签的文本数据来提高文本分类、情感分析、命名实体识别等任务的性能。图像识别和计算机视觉：在图像识别和计算机视觉领域，获取大规模的标记图像数据也可能是困难的。半监督学习可以在少量有标签图像和大量未标签图像上进行训练，以提高图像分类、目标检测等任务的准确性。数据聚类：在聚类任务中，半监督学习可以将有标签和未标签数据结合起来进行聚类，从而提高聚类结果的准确性和稳定性。医学图像和诊断：在医学图像分析和诊断中，获取大量标记的医学图像数据可能是困难的。半监督学习可以在少量有标签医学图像和大量未标签医学图像上进行训练，提高医学图像分割、病变检测等任务的性能。机器人控制：在机器人控制领域，半监督学习可以帮助机器人在未知环境中进行自主决策和学习，从而提高其任务执行能力。图像生成和数据增强：在生成式模型中，半监督学习可以结合有标签和未标签数据来训练模型，以提高生成模型的质量和多样性。这些场景中，半监督学习能够有效地利用未标签数据的信息，帮助提高模型性能和泛化能力。然而，半监督学习也面临着挑战，例如如何有效地利用未标签数据，避免过拟合和不平衡问题。在实际应用中，需要根据具体问题和数据情况选择适合的半监督学习方法。5 强化学习5.1 什么是强化学习定义：强化学习是让一个智能体（agent ）在环境中通过尝试和错误来学习行为策略。智能体通过与环境进行交互，根据奖励信号来调整其行为策略，以达到最大化累积奖励的目标。在强化学习中，智能体不需要明确地告诉如何执行任务，而是通过尝试和错误的方式进行学习。当智能体在环境中采取某个动作时，环境会返回一个奖励信号，表示该动作的好坏程度。智能体的目标是通过与环境交互，学习到一种最优策略，使其在长期累积的奖励最大化。强化学习的过程可以描述为智能体与环境之间的不断交互过程（1）智能体观察当前环境状态（state）。（2）基于当前状态，智能体选择一个动作（action）。（3）环境根据智能体的动作转换到新的状态，并返回一个奖励信号（reward）。（4）智能体根据奖励信号更新其策略，以便在将来的决策中获得更好的奖励。（5）重复以上步骤，直到智能体学习到一个使其获得最大累积奖励的策略。5.2 强化学习的类别强化学习是一种机器学习方法，根据智能体（agent）与环境的交互来学习适当的行为策略以最大化累积奖励。强化学习的类别主要可以分为以下几种：基于值的强化学习（Value-Based Reinforcement Learning）：基于值的强化学习方法旨在学习价值函数，即给定状态或状态-动作对的值，代表了智能体在该状态或状态-动作对上能够获得的累积奖励的估计值。这些方法通常通过使用贝尔曼方程或其变种来更新价值函数，并使用它来选择动作。基于策略的强化学习（Policy-Based Reinforcement Learning）：基于策略的强化学习方法直接学习策略函数，即将状态映射到动作的映射。策略可以是确定性的（对于每个状态只输出一个动作）或是概率性的（对于每个状态输出动作的概率分布）。这些方法通常通过梯度上升方法来更新策略参数，以最大化累积奖励。基于模型的强化学习（Model-Based Reinforcement Learning）：基于模型的强化学习方法学习环境的模型，即从状态和动作预测下一个状态和奖励。然后，它可以使用学到的模型进行规划和决策，而无需真实地与环境进行交互。这样可以提高样本效率和规划效率。深度强化学习（Deep Reinforcement Learning）：深度强化学习将深度神经网络与强化学习相结合。它通常使用深度神经网络来近似值函数或策略函数。深度强化学习在处理高维状态空间和动作空间的任务时表现出色。多智能体强化学习（Multi-Agent Reinforcement Learning）：多智能体强化学习研究多个智能体在相互作用环境中的学习问题。在这种情况下，每个智能体的策略和动作会影响其他智能体的状态和奖励，因此学习变得更加复杂。这些是强化学习的主要类别，每个类别中都有许多不同的算法和方法。强化学习在自主决策和学习的问题中具有广泛的应用，例如自动驾驶、机器人控制、游戏玩法等。5.3 常见的强化学习算法强化学习算法在处理不同类型的任务和问题时表现出色，并在自主决策和学习的领域中发挥着重要作用。它们通常用于解决自动驾驶、机器人控制、游戏玩法和其他需要决策和学习的任务。以下是一些常见的强化学习算法：Q-Learning：Q-Learning是一种基于值的强化学习算法。它通过学习一个值函数（Q函数）来表示在给定状态下采取某个动作的累积奖励。Q-Learning使用贝尔曼方程更新Q值，并使用贪心策略来选择动作。SARSA：SARSA是另一种基于值的强化学习算法。它与Q-Learning类似，但不同之处在于它在学习和决策阶段都使用当前策略的动作来更新Q值。DQN（Deep Q Network）：DQN是一种深度强化学习算法，结合了深度神经网络和Q-Learning。它使用深度神经网络来近似Q函数，通过经验回放和目标网络来稳定训练。A3C（Asynchronous Advantage Actor-Critic）：A3C是一种基于策略的强化学习算法，它结合了Actor-Critic方法和异步训练。A3C使用多个智能体并行地训练，以提高样本效率。PPO（Proximal Policy Optimization）：PPO是一种基于策略的强化学习算法，它通过限制更新幅度来稳定训练。PPO在深度强化学习中表现出色，并被广泛应用于各种任务。TRPO（Trust Region Policy Optimization）：TRPO是另一种基于策略的强化学习算法，它使用限制步长的方法来保证更新策略时不会使性能变差。5.4 强化学习的应用场景强化学习在许多实际应用场景中具有广泛的应用，尤其是那些需要自主决策和学习的任务。强化学习能够使智能体从与环境的交互中学习，并根据学到的知识做出适当的决策，以达到预定的目标或最大化累积奖励。由于强化学习的自主学习和决策特性，它在许多自主系统和智能系统中都有重要的应用潜力。以下是一些强化学习的应用场景：自动驾驶：强化学习可以应用于自动驾驶领域，使车辆能够根据环境和交通状况做出决策，例如规划路径、避免障碍物和遵守交通规则。机器人控制：强化学习可以帮助机器人在未知环境中进行自主探索和学习，以完成复杂的任务，例如导航、抓取物体和人机交互。游戏：强化学习在游戏玩法中有广泛的应用。例如，使用强化学习训练智能体来玩电子游戏、围棋、扑克等，使其能够与人类玩家媲美甚至超越。医疗治疗：强化学习可以在医疗领域中应用于个性化治疗和药物治疗决策，根据患者的情况和病情做出合适的治疗计划。语音识别和自然语言处理：强化学习可以应用于语音识别和自然语言处理任务，使智能体能够更好地理解和生成自然语言。ps：强化学习和监督学习的区别先给出结论：强化学习和监督学习是两种完全不同的机器学习范式，核心区别体现在数据、反馈和学习目标上；强化学习本质不需要人工标注标签，反馈天然具有延迟性。核心差异对比两种学习范式的区别可以从多个核心维度整理如下：❓ 强化学习是否需要标签强化学习本质上不需要人工标注的训练标签，它通过智能体与环境交互试错，基于环境返回的奖励信号自动学习，极大减少了对大规模标注数据的依赖14。仅在部分特殊场景会少量引入标注：例如RLHF中需要人工对模型回答排序来训练奖励模型，或是初始阶段用模仿学习（监督学习）做预训练加速收敛，但这些标注不属于传统监督学习要求的输入输出标签，也不是强化学习的必需环节1014。⏱️ 强化学习反馈是否具有延迟性强化学习的反馈天然具有延迟性。强化学习是序列决策任务，智能体需要执行完一整个动作序列后，才能得到最终的总奖励，无法在每一步都得到即时的对错反馈121。例如AlphaGo下围棋，需要下完一整盘棋才能知道最终胜负（总奖励），单步落子无法立刻得到明确反馈；种西瓜的场景里，只有收获时才能知道之前浇水施肥决策的最终效果，符合强化学习延迟反馈的特点6。目前虽然会通过值函数等方法对单步动作做预估，但无法从本质上消除延迟性。✅ 要点总结强化学习和监督学习是两种基础机器学习范式，核心差异在于反馈形式和学习目标；强化学习不需要人工标注标签就能学习，反馈天然存在延迟性，更适合序列决策类任务5。目前大模型对齐常用的RLHF就是结合监督微调与强化学习优势的典型应用。如果你需要更深入了解RLHF中强化学习的具体工作流程，或者想对比不同强化学习算法的差异，我可以帮你整理更清晰的步骤说明，要不要继续探索呀 📚————————————————版权声明：本文为CSDN博主「源启智能」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/lsb2002/article/details/132005658
- 2026年04月20日
- 12 阅读
- 0 评论
- 0 点赞
2026-04-20
AI专题三十二：深度学习的分类我们将从四个最核心的视角，为你系统性地梳理深度学习的庞大体系：按网络结构分类：我们将探寻模型的内在“骨架”，理解如前馈神经网络的直接、循环神经网络的记忆与卷积神经网络的洞察力是如何由不同的连接方式造就的。按学习范式分类：我们将洞察模型如何“学习”，从监督学习的名师指导，到无监督学习的自学成才，再到强化学习的与环境博弈试错，每一种都是获取智慧的不同路径。按任务模式分类：我们将厘清模型的核心“目标”，分清旨在“决策”的判别式模型与旨在“创造”的生成式模型之间的根本区别。按架构创新分类：我们将回顾那些闪耀的“里程碑”，如Transformer、GAN等，了解它们突破了何种桎梏，从而开创了全新的研究方向。未来，无论你遇到何种新模型、新算法，都能快速地将它在这张地图上“定位”，理解它的来龙去脉、核心思想与适用场景。一、按网络结构分类（最核心的分类）这个角度根据神经元之间的连接方式和数据流动的拓扑结构进行分类。分类代表模型核心思想与结构特点信息流动方式典型应用前馈神经网络多层感知机（MLP）由全连接层组成，是最基础的网络结构。单向传播，无循环或反馈。简单的分类与回归任务。卷积神经网络（CNN）通过卷积核提取局部特征，具有参数共享和平移不变性。单向传播，无循环或反馈。图像识别、目标检测、图像生成。反馈神经网络循环神经网络（RNN）具有循环连接，使网络具备记忆功能，能处理变长序列。单向传播，但具有内部循环反馈。自然语言处理、时间序列预测。长短期记忆网络（LSTM）RNN的变体，引入“门控机制”以解决长程依赖问题。单向传播，但具有内部循环反馈。机器翻译、语音识别、文本生成。门控循环单元（GRU）LSTM的简化变体，合并了门控单元，参数更少，计算效率更高。单向传播，但具有内部循环反馈。同LSTM，资源受限的场景。特殊连接结构网络Transformer完全基于自注意力机制，并行化处理序列，能捕捉全局依赖关系。本质上为前馈，但通过注意力权重实现全局信息交互。机器翻译、文本摘要（BERT, GPT等模型的基础）。图神经网络（GNN）专为处理图结构数据设计，通过聚合邻居信息来更新节点表征。信息在图节点之间传播（非序列也非网格）。社交网络分析、推荐系统、药物发现。脉冲神经网络脉冲神经网络（SNN）第三代神经网络，模拟生物大脑，使用离散脉冲和时间动力学编码信息。基于事件驱动的异步传播。神经形态计算、低功耗边缘AI、脑机接口。补充说明与关系解读层次关系：前馈和反馈结构是基础。特殊连接结构（如Transformer、GNN）是在基础结构上为特定数据类型和任务设计的创新架构。脉冲神经网络则采用了完全不同的信息编码和处理范式，是一个独特的分支。混合架构：在实际应用中，这些结构常常被混合使用以发挥各自优势。例如：CNN + RNN/LSTM：用于视频描述（CNN提取帧特征，RNN生成描述语句）。CNN + Transformer：用于视觉Transformer（ViT），将图像切块后送入Transformer处理。二、按学习范式分类这个角度关注模型如何从数据中学习以及学习的目标。学习范式核心思想数据要求典型模型/算法典型任务监督学习学习从输入到输出的映射函数。模型通过比较预测输出与已知标签之间的误差来进行训练。大量带标签的数据 (输入数据 + 对应的真实输出)• 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • 全连接神经网络 (MLP) • Transformer (用于有监督任务)• 图像分类 • 目标检测 • 语音识别 • 机器翻译无监督学习发现数据中内在的、未标注的模式或结构。没有“正确答案”作为指导。没有任何标签的数据 (只有输入数据)• 自编码器 (AE) • 生成对抗网络 (GAN) * • 聚类算法 (如Deep Clustering) • 主成分分析 (PCA) 的深度版本• 数据降维与可视化 • 异常检测 • 数据聚类 • 关联规则学习半监督学习同时利用少量标注数据和大量未标注数据进行训练，以降低对标注数据的依赖。少量带标签数据 + 大量未标注数据• Π-model • Temporal Ensembling • Mean Teacher • 伪标签• 在标注成本高的领域（如医学图像分析）中提升模型性能自监督学习无监督学习的一种。通过从数据自身构造预训练任务（Pretext Task）来学习数据的表征，无需人工标注。没有任何人工标签的数据 (但算法会自行构造标签)• BERT (掩码语言模型) • SimCLR, MoCo (对比学习) • GPT (自回归语言模型)• 预训练大语言模型 • 为下游任务学习通用特征表示 • 图像、视频的表示学习强化学习智能体通过与环境交互，根据获得的奖励（或惩罚）信号来学习最优决策策略。学习过程是“试错”的。不需要静态数据集，需要环境、奖励函数和交互产生的状态-动作-奖励序列。• 深度Q网络 (DQN) • 策略梯度方法 (如A3C) • 深度确定性策略梯度 (DDPG) • AlphaGo, AlphaZero• 游戏AI (如AlphaStar) • 机器人控制 • 自动驾驶决策 • 资源优化管理补充说明与关系解读生成对抗网络 (GAN) 的归属： GAN 的训练过程同时包含了监督和无监督的成分。判别器 (Discriminator) 的学习是一个典型的有监督任务（判断真伪），而生成器 (Generator)的目标是欺骗判别器，其学习过程是无监督的。因此，常将其整体视为一种强大的无监督生成模型。自监督学习 vs. 无监督学习：共同点：都不需要人工标注的标签。核心区别：自监督学习会主动地、巧妙地从数据中构造出监督信号（如遮盖单词、旋转图片然后预测），从而学习到非常高质量的数据表示。而无监督学习更直接地探索数据分布（如聚类、降维）。关系：自监督学习是无监督学习领域近年来最重大的突破之一，它极大地提升了无监督学习的效果。范式间的结合：在实际应用中，这些范式并非泾渭分明，而是常常结合使用：预训练 + 微调：这是最常见的模式。首先使用自监督或无监督学习在海量无标签数据上进行预训练，学习通用特征表示；然后使用监督学习在少量有标签的特定任务数据上进行微调。例如，BERT、GPT的用法。强化学习中的监督信号：在一些强化学习算法中，可能会利用模仿学习（从专家示范中学习），这又引入了监督学习的成分。三、按任务模式分类这个角度关注模型的输出是什么，用于解决什么具体任务。分类核心目标学习内容典型应用代表模型与架构判别式模型学习决策边界，对输入数据进行分类、回归或判别。学习 P(Y|X)：在给定输入数据X的条件下，输出Y（标签或值）的概率分布。• 图像分类 • 目标检测 • 语音识别 • 情感分析 • 序列标注• 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • Transformer (如BERT) • 全连接神经网络 (MLP)生成式模型学习数据本身的分布，并能够生成新的、与训练数据相似的数据样本。学习 P(X)：输入数据X本身的概率分布。或 P(X|Y)：给定标签Y条件下，数据X的分布。• 图像生成 • 文本创作 • 语音合成 • 数据增强 • 风格迁移• 生成对抗网络 (GAN) • 变分自编码器 (VAE) • 扩散模型 (如DDPM) • 自回归模型 (如GPT, PixelRNN)补充说明与关系解读直观理解：判别式模型关心的是“区分”和“抉择”。它学会了在不同类别的数据之间“划界线”。它的问题是：“根据特征X，它最可能属于哪个类别？”生成式模型关心的是“创造”和“合成”。它学会了每个类数据“长什么样”。它的问题是：“一个特定的类别，它的特征X应该是什么样的？”生成式模型也可用于判别任务：理论上，如果生成式模型学到了数据分布 P(X) 和先验分布 P(Y)，它可以通过贝叶斯定理 P(Y|X) ∝ P(X|Y)P(Y) 来计算后验概率，从而进行分类。但这通常计算复杂且效果不如直接训练判别式模型。联系与结合：对抗训练：生成对抗网络（GAN）是两者结合的完美例子。它内部同时包含一个生成式模型（Generator）和一个判别式模型（Discriminator），两者通过对抗博弈共同进步。预训练-微调：许多先进的生成式模型（如GPT、扩散模型）学到的强大数据表征，可以被用来初始化判别式任务的模型，提升其性能。这体现了生成式学习对判别式任务的促进作用。四、按架构创新分类这个角度关注那些引入了关键新思想或组件的著名架构。创新架构类别核心创新思想解决的关键问题代表性模型引发的新方向深度架构堆叠多个隐藏层，实现多层次的特征抽象与转换。传统浅层模型无法处理高度复杂的非线性问题。• Deep Belief Network (DBN) • Stacked Autoencoders开启了“深度”学习时代，证明了深度的重要性。卷积架构局部连接、权重共享和池化，极大地减少了参数数量并保留了空间信息。全连接网络处理图像时参数爆炸且无法有效利用空间局部性。• LeNet • AlexNet • VGG • ResNet现代计算机视觉的基石，推动了图像领域的革命。门控循环架构引入门控机制（输入门、遗忘门、输出门）精细控制信息的流动和记忆的保留与遗忘。传统RNN存在梯度消失/爆炸问题，难以学习长期依赖关系。• LSTM • GRU使RNN真正变得实用，成为处理序列数据的首选架构。注意力与Transformer架构自注意力机制：让序列中的每个元素直接与所有元素交互，并行计算且能捕获长程依赖。RNN的序列计算模式无法并行，效率低下；CNN对长程依赖捕捉能力弱。• Transformer • BERT • GPT带来了NLP的革命，并逐渐向多模态（Vision Transformer）扩展，成为大模型的基础。生成对抗架构通过生成器和判别器的对抗博弈过程进行训练，无需显式的似然计算。如何有效学习和生成复杂的高维数据分布（如图像）。• GAN (DCGAN, StyleGAN)推动了高质量图像生成的发展，开启了生成模型的“对抗”时代。扩散模型架构通过一个前向加噪和反向去噪的马尔可夫链过程来学习数据分布。GAN训练不稳定、模式崩塌；传统生成模型生成质量不高。• DDPM • Stable Diffusion当前图像生成领域的SOTA，在生成质量和稳定性上表现卓越。记忆增强架构为网络引入外部记忆模块，像计算机的内存一样，可以进行信息的读写和存储。标准网络缺乏长期、大量的记忆存储和精确检索能力。• Neural Turing Machine (NTM) • Memory Networks增强了网络的推理能力和处理需要知识库的任务的能力。注意力与Transformer架构自注意力机制：让序列中的每个元素直接与所有元素交互，并行计算且能捕获长程依赖。RNN的序列计算模式无法并行，效率低下；CNN对长程依赖捕捉能力弱。• Transformer • BERT • GPT带来了NLP的革命，并逐渐向多模态（Vision Transformer）扩展，成为大模型的基础。图神经网络架构专为非欧几里得空间的图数据设计，通过邻域聚合（消息传递）来学习节点和图的表征。传统神经网络无法有效处理图结构这种不规则的关系数据。• GCN • GAT • GraphSAGE将深度学习成功应用于社交网络、推荐系统、化学等关系型领域。稀疏架构并非所有神经元或专家都需要被激活，通过稀疏激活的机制来扩大模型容量但控制计算量。模型参数越来越大，计算成本和能耗越来越高。• Mixture of Experts (MoE)构建万亿参数级别超大模型的关键技术（如Switch Transformer）。补充说明与演进关系创新是叠加的，而非替代的：这些架构创新并非互相排斥，而是常常被结合使用。例如：ResNet = 深度架构 + 卷积架构 + 跳跃连接（一种创新）Vision Transformer = Transformer架构 + 卷积架构（用于patch embedding）扩散模型也常常使用 U-Net（一种卷积架构）作为去噪网络。推动领域发展的核心：表格中的每一项创新都极大地推动了一个甚至多个子领域的发展。例如，卷积架构推动了CV，Transformer架构推动了NLP，GNN架构推动了图学习。从专用到通用：许多最初为特定领域设计的架构，后来被发现具有通用性。最典型的例子是 Transformer，它从NLP起源，现在正逐步成为处理多模态数据的通用 backbone。总结这些分类角度并非互斥，一个模型通常可以同时属于多个类别。例如：BERT模型：是基于Transformer架构的、采用自监督学习范式进行预训练的、主要用于判别式任务的模型。深度强化学习：是深度学习（用于感知环境）和强化学习（用于决策）的结合。理解这些分类有助于您根据具体任务（如图像识别、文本生成、游戏AI）选择最合适的模型架构和学习方法。PS：关于表示学习先给结论：表示学习不属于和监督学习、无监督学习平行的分类范式，它是一类侧重数据特征学习的技术方向，可同时适用于监督学习和无监督学习场景；核心用途是自动从原始数据中提取有用的特征表示，降低后续任务的处理难度。📌 范畴关系梳理机器学习有两种常用分类维度，分类逻辑完全不同：监督学习/无监督学习是按训练数据标注形式划分的学习范式分类，核心区分依据是训练数据是否带有人工标注标签7 9。表示学习是按学习目标划分的技术方向分类，核心目标是学习数据的有效特征表示，它不与监督/无监督学习形成对立，而是可以嵌套在两种范式中使用20。🧩 表示学习在不同范式中的应用场景表示学习可以适配监督、无监督两种学习范式，具体对比如下：学习范式是否可以包含表示学习应用形式监督学习是在分类/回归任务中，让模型自动学习特征提取，替代人工设计特征，最后接监督分类/回归头20无监督学习是从未标注原始数据中学习数据的内在结构表示，最常见的无监督预训练就是典型场景20（补充说明）目前大模型的预训练阶段基本都采用无监督表示学习，通过大规模无标注文本学习通用语义表示，再通过微调适配下游监督任务，是现在主流AI大模型的基础训练逻辑。🎯 表示学习的主要用途表示学习解决了传统机器学习中人工设计特征成本高、效果差的问题，核心用途包括三类：自动提取数据本质特征，将原始高维数据转换为低维稠密表示，降低后续任务的计算复杂度，同时提升模型泛化能力20。挖掘无标注数据中的隐藏结构，让海量未标注数据可以用于模型训练，解决标注数据不足的问题20。学习到的通用表示可以迁移到多个下游任务，大幅降低下游任务的训练成本，提升任务效果，这也是当前迁移学习、预训练大模型的核心基础20。✅ 总结梳理表示学习和监督/无监督学习不属于同一分类维度，不存在互斥关系，它是一种特征学习技术，可以同时适配监督和无监督两种学习范式；它的核心价值是替代人工特征工程，自动从原始数据中学习有效特征，支撑各类下游AI任务。————————————————版权声明：本文为CSDN博主「代码漫叙」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/a246808642/article/details/150467222
- 2026年04月20日
- 3 阅读
- 0 评论
- 0 点赞
2026-04-20
AI专题三十一：深度学习基础概念一、深度学习概述1、什么是深度学习？深度学习是机器学习中的一种基于人工神经网络的机器学习方法，其关键在于通过多层神经网络对输入数据进行逐深度学习是机器学习中的一种基于人工神经网络的机器学习方法，其关键在于通过多层神经网络对输入数据进行逐层抽象和表示学习，从而实现对复杂数据结构和非线性关系的建模。深度学习模型通常包含多个隐藏层，每个隐藏层都有许多神经元。这些神经元通过权重连接，模拟了生物神经元之间的信号传递过程。深度学习的目标是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。2、深度学习与传统机器学习的区别深度学习和传统机器学习都是机器学习领域的重要分支，但它们在方法和应用上存在明显的区别与独特的优势。以下是它们之间的主要区别：特征提取与学习：传统机器学习：通常依赖于特征工程 (feature engineering)，这意味着专家需要人为地对数据进行提炼和清洗，选择或构造最相关的特征来训练模型。深度学习：利用表示学习 (representation learning)，机器学习模型自身能够从原始数据中自动学习和提取有用的特征。这种方法不需要手动选择特征、压缩维度或转换格式。数据依赖性：传统机器学习：通常需要大量的标记数据来训练模型，因为模型的性能很大程度上取决于输入的数据质量。深度学习：对于深度学习，尤其是当使用无监督学习方法时，可以处理大量未标记的数据。此外，深度网络的多层结构使其能够学习数据的多层次表示。计算资源：传统机器学习：通常需要的计算资源较少，因为它们的模型结构简单。深度学习：由于其复杂的网络结构和大量的参数，深度学习模型通常需要更多的计算资源，如GPU加速。模型解释性：传统机器学习：许多传统的机器学习算法（如决策树、支持向量机等）提供相对较高的模型解释性，因为它们的决策过程往往是直观的。深度学习：深度学习模型，尤其是深层神经网络，通常被视为“黑箱”，因为它们的内部工作机制很难解释。应用领域：传统机器学习：广泛应用于各种领域，如金融、医疗、零售等，其中特征的选择和工程是关键步骤。深度学习：由于其强大的表示学习能力，尤其在图像识别、语音识别和自然语言处理等领域表现出色。3、深度学习的应用领域深度学习是人工智能的一个分支，它教神经网络学习和推理。深度学习在图像识别、自然语言处理、语音识别、推荐系统、自动驾驶汽车、医疗保健、欺诈检测和游戏等领域都有广泛的应用。二、深度学习基本原理1、神经网络的基本结构（1）什么是神经网络？神经网络，又称人工神经网络 (ANN) 或模拟神经网络 (SNN)，是机器学习的一个重要子领域，同时也是深度学习算法的核心。其名称和结构均受到人脑的启发，目的是模拟大脑的某些机理与机制，实现诸如图像识别、语音识别等功能。基本组成：神经元：这是神经网络的基本单位。每个神经元接收一组输入和一个偏置值，当信号（值）到达时会乘以一个权值。如果神经元有4个输入，那么就有4个权值，这些权重可以在训练时进行调整。层：神经网络由相互连接的节点组成，也称为人工神经元，这些节点按层组织。例如，一个三层的神经网络可能包括输入层、隐藏层和输出层。主要特点：自我学习和改进：神经网络能够无需人工干预地自我学习和改进。它可以直接从数据中学习特征。适应性：通过分析神经网络的结构，我们可以找到优化其性能的方法，如调整层数或节点数，或者调整网络处理输入数据的方式。应用广泛：神经网络被广泛应用于各种领域，从图像和语音识别到预测股市等。（2）神经网络基本结构神经网络的基本结构分为四大类：标准网络、循环网络、卷积网络和自动编码器。标准网络（Standard Network，SN）：是最基本的神经网络类型，包括感知器和前馈网络。感知器是所有神经网络的基础，并且是更复杂的神经网络的基本构建模块。它只连接一个输入神经元和一个输出神经元。前馈网络是由多个感知器组成的集合，其中包含三种基本类型的层：输入层、隐藏层和输出层。在前馈网络中，来自上一层的信号会被乘以权重并增加偏置，然后通过激活函数。前馈网络使用反向传播来迭代更新参数，直到达到理想的性能为止。循环网络（Recurrent Neural Network ，RNN）：是一种处理序列数据的神经网络，例如自然语言处理或时间序列预测。在循环网络中，尝试识别数据中的最小单元，并将数据视为一组这样的单元进行处理。最常见的方法是将一个单词作为一个单元，并在处理句子时将句子视为一组单词。卷积网络（Convolutional Neural Network, CNN）：是一种常用于图像识别和分类的深度学习模型。卷积网络中的卷积层可以有效地提取图像中的空间特征，并通过池化层压缩数据大小，降低模型复杂度。自动编码器（Autoencoder）：是一种无监督学习模型，主要用于数据的特征提取和降维。自动编码器试图学习输入数据的有效表示（编码），并能够从该表示中重构原始输入数据。2、激活函数的作用和选择（1）什么是激活函数？激活函数是一种添加到人工神经网络中的函数，旨在帮助网络学习数据中的复杂模式。在神经元中，输入的input经过一系列加权求和后作用于另一个函数，这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型，激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。在人工神经网络中，一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开（1）或关（0）输出的数字电路激活函数。激活函数可以分为线性激活函数（线性方程控制输入到输出的映射，如f(x)=x等）以及非线性激活函数（非线性方程控制输入到输出的映射，比如Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish 等）。**注：Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish都是非线性激活函数，它们都在人工神经网络中起到关键的作用。非线性激活函数如Sigmoid和Tanh可以将输入的线性组合转化为非线性输出。Sigmoid函数的公式为S(x)=1/(1+exp(-x))，它将输入的每个值压缩到0和1之间。但是，当输入值远离0时，Sigmoid函数的梯度将接近于0，这可能会导致在训练过程中出现梯度消失的问题。Tanh函数与Sigmoid函数类似，但它是零中心的，也就是说它的输出范围在-1到1之间。然而，Tanh函数也存在饱和问题。ReLU（Rectified Linear Unit）函数对正数原样输出，负数直接置零。它在正数区域不饱和，在负数区域硬饱和。ReLU函数计算上比Sigmoid或者Tanh更省计算量，因为不用exp，因而收敛较快。能够帮助解决sigmoid随着层数的增加梯度衰减现象。但是还是非zero-centered。LReLU（Leaky ReLU）是ReLU的变体，区别在于它不是将所有负值设为零，而是引入一个小的正数斜率。PReLU（Parametric ReLU）是另一个ReLU的变体，其参数化负数部分允许网络学习负数斜率的最佳值。Swish是一种自门控激活函数，其计算公式为f(x) = x / ( 1 + e^(-x) )。（2）激活函数的作用与选择Sigmoid 函数：能将输入值压缩到0和1之间，常用于二分类问题的输出层。Tanh 函数：与Sigmoid类似，但输出范围是-1到1，常用于二分类问题的输出层。ReLU 函数：当输入值大于0时，输出值等于输入值；当输入值小于等于0时，输出值为0。ReLU是目前最常用的激活函数之一，因为它能够缓解梯度消失问题。Leaky ReLU 函数：在输入值小于0时，输出值为0.01乘以输入值；在输入值大于0时，输出值等于输入值。这种激活函数可以解决ReLU激活函数在负数区域的问题。PReLU 函数：在输入值小于0时，输出值为0.2乘以输入值的绝对值；在输入值大于0时，输出值等于输入值。这种激活函数也可以解决ReLU激活函数在负数区域的问题。3、损失函数的定义和选择（1）什么是损失函数损失函数，也叫损失准则，是用来度量模型预测值与真实值之间的差异程度的一种方法。损失函数是一个非负实值函数，通常用符号L(Y, f(x))来表示，其中Y代表真实值，f(x)代表模型的预测值。损失函数越小，说明模型预测值与真实值越接近，模型的鲁棒性就越好。（2）损失函数的选择损失函数在模型训练阶段发挥着重要的作用。每个批次的训练数据送入模型后，通过前向传播输出预测值，然后损失函数会计算出预测值和真实值之间的差异值，也就是损失值。得到损失值之后，模型通过反向传播去更新各个参数，以降低真实值与预测值之间的损失，使得模型生成的预测值更接近真实值，从而达到学习的目的。关于如何选择损失函数，需要考虑以下因素：回归问题：均方误差、平均绝对误差等。分类问题：交叉熵、对数损失等。排名问题：平均精度差、有序列表挖掘的损失等。选择损失函数的基本要求是衡量模型输出分布和样本标签分布之间的接近程度。此外，根据特定的预测建模问题（如分类或回归），损失函数的选择必须匹配问题的框架。例如，对于神经网络模型，输出层的参数选择也必须与所选的损失函数相适应。因此，如何选择合适的损失函数是问题抽象建模中的关键步骤。4、反向传播算法的原理和应用反向传播算法，全称误差反向传播（Back-propagation, BP）算法，是神经网络发展的重大突破，也是现在众多深度学习训练方法的基础。它是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该算法的基本思想包括以下步骤：先计算每一层的状态和激活值，直到最后一层（即信号是前向传播的）；计算每一层的误差，误差的计算过程是从最后一层向前推进的（即误差是反向传播的）；计算每个神经元连接权重的梯度；根据梯度下降法则更新参数（目标是误差变小）。迭代以上步骤，直到满足停止准则（比如相邻两次迭代的误差的差别很小）。在具体实施过程中，首先进行前向传播，输入数据按照从输入层到输出层的顺序，通过网络的每一层进行传递，并计算每一层的输出。然后在输出层得到预测结果后，用一个损失函数来衡量预测结果与真实标签的差异。最后开始反向传播的过程，从输出层开始，向输入层方向进行。三、深度学习常用算法和模型a. 卷积神经网络（CNN）CNN的原理和应用卷积神经网络（CNN）是一种深度学习算法，主要应用于图像识别领域。CNN的价值在于其能够将大数据量的图片有效地降维成小数据量，同时保留图片的特征，这类似于人类的视觉原理。CNN的基本结构主要包括卷积层、池化层和全连接层：卷积层：这是CNN的核心部分，主要用于提取图像的特征。通过卷积操作，可以捕捉到图像中的局部特征。池化层：其主要作用是降低数据的维度，同时保留重要的特征信息。这有助于减少网络的复杂性，提高计算效率。全连接层：在卷积层和池化层提取并处理了图像的特征后，全连接层用于对特征进行高级处理并输出最终的分类结果。CNN的常用层结构和参数设置卷积神经网络（CNN）的常用层结构和参数设置主要包含以下几个部分：数据输入层：这是网络的第一层，用于接收原始图像数据。在处理原始图像数据时，通常需要进行预处理，包括去均值和归一化等操作。输入图像的尺寸通常是可以被2整除多次的像素值矩阵，常用的数字包括32,64,96,224,384和512。卷积计算层：也被称为CONV层，是网络的核心部分，主要用于从输入图像中提取特征。这一层会通过多个不同的滤波器（或卷积核）对输入图像进行卷积操作，以提取出图像的不同特征。ReLU激励层：这一层的主要作用是对上一层输出的结果进行非线性变换，增强网络的表达能力。常用的激活函数包括ReLU、Sigmoid和Tanh等。池化层：池化层的作用主要是降低数据的维度，同时保留重要的特征信息。常用的池化方法有Max Pooling和Average Pooling等。全连接层：全连接层通常位于网络的最后部分，用于将之前提取并处理的特征进行高级处理并输出最终的分类结果。值得注意的是，CNN的设计选择和参数设定会严重影响网络的训练和表现。例如，滤波器的大小、步长以及填充方式等都需要根据具体的应用场景和需求来设定。此外，虽然很多架构的选择都是凭借直觉，而非有充分的数学论证，但这些直觉往往是基于大量的实验结果。b. 循环神经网络（RNN）RNN的原理和应用循环神经网络（Recurrent Neural Network，RNN）是深度学习中的一种主流模型，特别适用于处理序列数据的任务。其核心原理在于，RNN具有记忆能力，能够捕捉并使用序列中的时序信息，因此可以对序列数据进行有效的建模。RNN的结构特点是，网络会对序列中的每个元素进行处理，并将结果传递给下一个元素。同时，RNN还会将自身的输出作为输入，结合之前的输出一起处理当前的元素，这种方式使得RNN能够捕捉到时间关系和依赖性信息。RNN的主要应用包括自然语言处理、时间序列预测和语音识别等领域。例如，在自然语言处理任务中，RNN可以用于词性标注、命名实体识别等；在时间序列预测中，RNN可以用于预测股票价格、天气变化等；在语音识别中，RNN可以用于将语音信号转换为文本。RNN的常用变体和参数设置RNN的常用变体主要包括长短期记忆网络（Long Short-Term Memory，LSTM）和门控循环单元（Gated Recurrent Unit，GRU）。LSTM通过引入门机制解决了RNN的长期依赖问题，而GRU则通过减少参数数量和模型复杂度，同时保持了较好的性能。在参数设置方面，我们需要关注三个重要的超参数：学习率、批次大小和迭代次数。学习率决定了权重更新的速度；批次大小影响每次训练使用的样本数；而迭代次数则决定了整个训练过程重复执行的次数。至于RNN的训练方法，最常用的是反向传播通过时间（Backpropagation Through Time，BPTT）。这种方法是基于时间反向传播的，因此被称为随时间反向传播。c. 生成对抗网络（GAN）GAN的原理和应用GAN，全称为生成对抗网络，是一种深度学习模型，它的核心原理是通过两个神经网络相互博弈学习产生数据。这两个神经网络分别是生成器和判别器。生成器负责从随机噪声中生成数据，试图欺骗判别器以为是真实的数据。判别器则负责判断这些数据是真实还是由生成器生成的。在这场“博弈”中，生成器和判别器不断进行迭代优化，最终实现生成越来越逼真的数据。GAN的主要应用可以分为两个方面：数据生成和无监督学习。在数据生成方面，GAN常用于图像生成，常用的有DCGAN、WGAN、BEGAN等。此外，由于GAN是一种无监督学习的典范，因此它在无监督学习和半监督学习领域也有广泛的应用。例如，通过GAN可以对大量的未标记数据进行学习，进而提升模型的泛化能力。GAN的生成器和判别器的工作原理GAN的核心组件是生成器和判别器，它们在训练过程中扮演着不同的角色并且相互对抗。生成器的目标是创建看起来像真实数据的新数据，判别器的任务则是判断这些新创建的数据是否真实。生成器从一个随机噪声中生成数据，试图欺骗判别器以为是真实的数据。为了实现这一点，生成器会尽量最小化重构误差和正则项来学习潜在空间的分布，并使用重参数化技巧来实现可导性。判别器则需要判断这些生成的数据是真实的还是由生成器生成的。如果判别器不能准确地区分出真假数据，那么就说明生成器成功地创造了逼真的数据。在训练过程中，生成器和判别器不断进行博弈：生成器试图生成能够“欺骗”判别器的样本，判别器则努力提高其判别真假样本的准确性。通过这种方式，两者不断调整自己的参数，直到达到一个平衡点。在这个平衡点上，生成器能够生成非常逼真的样本，而判别器无法准确区分出真实样本和生成样本。这个过程可以通过多次迭代进行优化，使得生成的样本越来越逼真。d. 其他常用的深度学习模型和算法除了RNN、CNN和GAN，深度学习领域还有许多其他的模型和算法。例如：DBN (Deep Belief Network): 它是一种生成式神经网络，由多层隐藏层和可见层组成，并使用受限玻尔兹曼机（Restricted Boltzmann Machine）作为其隐藏层单元。尽管DBN在理解深度学习的“哲学”和“思维模式”方面很有价值，但在实际应用中，CNN和RNN等模型更为常用。RNTN (Recurrent Neural Turing Machine): 它是一种结合了RNN和Turing Machine的模型，旨在处理序列数据和记忆任务。自动编码器 (Autoencoder): 这是一种无监督的神经网络模型，用于学习数据的压缩表示，并通过解码器重构输入数据。全连接神经网络 (FCNN): 与CNN不同，FCNN完全连接所有的输入和输出层。它通常用于较少的维度和简单的结构。多层感知机 (MLP): 这是最简单的深度学习模型之一，由一个或多个隐藏层和一个输出层组成。它常用于监督学习任务。
- 2026年04月20日
- 4 阅读
- 0 评论
- 0 点赞
2026-04-20
AI专题十八：AI服务器集群连接大语言模型的分布式训练依赖高性能计算集群（HPC）完成，其架构设计需综合考虑分布式系统、大语言模型结构、优化算法。本文详细解析分布式训练的两种核心集群架构 ——参数服务器架构与去中心化架构，并探讨硬件组成、通信瓶颈及优化方案。一、高性能计算集群的硬件组成1.1 典型硬件架构分布式训练集群的硬件以多层树状拓扑为基础，核心组件包括：服务器：单台服务器通常搭载 2-16 个计算加速设备（如 GPU/TPU），负责模型计算。机柜与交换机：架顶交换机（ToR）：连接同一机柜内的服务器。骨干交换机（Spine Switch）：跨机柜通信，构建多层树状网络拓扑（如图 4.18 所示）。高速网络：采用 InfiniBand（IB）技术，单链路带宽可达 200Gbps/400Gbps，NVIDIA DGX/HGX 服务器通过 NVLink 实现单机内 1.6Tb-3.2Tb 带宽。1.2 通信瓶颈与优化跨机柜通信挑战：以 GPT-3 为例，1024 卡集群单轮训练需传输 89.6TB 梯度数据，传统多层树拓扑易导致网络拥塞。拓扑优化：采用胖树（Fat-Tree）拓扑实现无收敛带宽，结合 InfiniBand 高速网络降低延迟。服务器内通信：PCIe 5.0 总线带宽仅 128GB/s，远低于 GPU 显存带宽（如 H100 HBM 达 3.35TB/s），因此 NVIDIA HGX 服务器通过NVLink+NVSwitch实现 GPU 间直接通信（如图 4.19 所示）。二、参数服务器架构（Parameter Server, PS）2.1 角色与流程双角色分工：参数服务器（PS 节点）：存储模型参数，负责梯度聚合与参数更新，需高内存与通信能力。训练服务器（Worker 节点）：执行前向 / 反向计算，推送梯度至 PS 节点，需高计算能力。典型流程（以 2 训练服务器 + 2 参数服务器为例）：训练服务器处理数据分片，计算梯度并推送至对应 PS 节点。PS 节点等待所有梯度到达后，计算平均梯度并更新参数。PS 节点通知训练服务器拉取新参数，启动下一轮迭代（如图 4.20 所示）。2.2 同步与异步训练模式同步训练：优势：参数更新一致，训练结果稳定。缺点：需等待所有 Worker 完成计算，速度较慢。异步训练：优势：无需等待，训练速度显著提升。缺点：梯度更新存在延迟，可能导致训练波动。选择策略：根据模型收敛要求权衡，大规模训练常采用异步模式提升效率。三、去中心化架构（Decentralized Network）3.1 核心思想与通信原语无中心节点：所有节点平等通信，通过集合通信（Collective Communication）实现梯度同步与参数更新，避免单点瓶颈。关键通信原语介绍Broadcast（广播）：主节点向所有节点发送相同数据（如模型初始化参数Scatter（散射）：主节点将数据分片发送至不同节点。Reduce（归约）：将多节点数据聚合至单节点（如求和、求平均）。All Reduce（全归约）：所有节点参与聚合，最终各节点均获得相同结果。Gather/All Gather：收集多节点数据至单节点 / 所有节点。Reduce Scatter/All to All：数据切分后分发至多节点处理。3.2 通信库与框架实现常用通信库：PyTorch 分布式通信示例：# 初始化分布式环境 import torch.distributed as dist def init_process(rank, size, fn): os.environ["MASTER_ADDR"] = "127.0.0.1" os.environ["MASTER_PORT"] = "29500" dist.init_process_group(backend="nccl", rank=rank, world_size=size) # 使用NCCL backend fn(rank, size) # All Reduce通信示例 def do_all_reduce(rank, size): tensor = torch.tensor([rank + 1]) dist.all_reduce(tensor, op=dist.ReduceOp.SUM) # 所有节点求和 print(f"Rank {rank}: Result = {tensor.item()}") # 输出均为10（1+2+3+4） # 启动4个进程 if __name__ == "__main__": size = 4 mp.set_start_method("spawn") processes = [] for rank in range(size): p = mp.Process(target=init_process, args=(rank, size, do_all_reduce)) p.start() processes.append(p) for p in processes: p.join() 四、两种架构对比与选型建议选型建议：中小规模模型或参数更新密集型任务：优先参数服务器架构。大规模分布式训练（如千亿参数模型）：采用去中心化架构，结合 NCCL 通信库与胖树拓扑优化通信效率。五：连接接口：InfiniBand (IB)：专为高性能计算设计的网络协议和硬件标准。核心技术：RDMA。允许服务器内存直接访问另一台服务器的内存，完全绕过CPU和操作系统，实现极低延迟和高带宽。特点：高性能、低延迟、高吞吐量、内置网络计算能力（如NVIDIA的SHARP）。高性能以太网 (RoCEv2 / iWARP)：RoCEv2：在标准以太网上实现RDMA的技术。需要支持无损传输的网络环境（如PFC、ECN等流控技术）。iWARP：另一种在TCP/IP协议上实现RDMA的标准，但不如RoCEv2普及。特点：基于广泛使用的以太网生态，成本通常低于同带宽InfiniBand，但对网络配置要求高，延迟通常略高于InfiniBand。Unified Bus：华为Unified Bus (UB/灵衢) 的核心使命是构建数据中心级计算机，推倒计算机体系结构中总线与网络之间的墙。它旨在创造一种既拥有总线级的编程简易度和极致性能（纳秒/微秒级延迟、高带宽、内存语义），又具备网络级超大规模扩展能力的统一互联范式。137因此，它的应用范围自然覆盖了服务器间的连接，即“Scale-Out”场景。它通过“Jetty”等抽象概念和“UB-Mesh”拓扑结构，专门设计用于构建包含数千乃至上万张算力卡的超大规模集群。Unified Bus与InfiniBand、RoCEv2的技术对比典型应用与选择建议选择华为Unified Bus (灵衢) 的场景：构建全新、超大规模AI算力集群，特别是以华为昇腾NPU为核心的全栈国产化解决方案。追求 “数据中心即计算机” 的愿景，需要将整个集群的算力、内存、存储资源深度池化，实现像单机一样的极简编程和管理。110对技术自主可控和开源开放有强烈要求。选择InfiniBand的场景：对极致且稳定的性能有绝对要求，且预算充足。构建以英伟达GPU为核心的集群，并希望获得其NVLink+IB的最佳软硬件协同性能。应用于对延迟极其敏感的尖端科学计算或金融交易场景。选择RoCEv2的场景：希望平衡性能与成本，充分利用现有或主流的以太网数据中心基础设施。集群规模极大，且网络流量模型相对复杂，需要与通用业务网络融合。技术团队熟悉以太网运维，能够对无损网络进行精细调优。总结华为Unified Bus是一种面向未来的、具有革命性的互联方案，它通过统一总线和网络的范式，直接瞄准了AI算力集群的核心痛点。它不仅能用于服务器间连接，更是为此而生。与深耕高性能网络的InfiniBand和基于开放以太网的RoCEv2相比，UB的差异化优势在于其“统一内存语义”的编程模型和开源开放的生态战略。简而言之：追求极致性能与成熟度，选 InfiniBand。追求成本与通用性平衡，选 RoCEv2。追求架构革新、自主可控与资源深度池化，并采用昇腾生态，选华为Unified Bus。
- 2026年04月20日
- 18 阅读
- 0 评论
- 0 点赞