首页
游戏
影视
直播
广播
听书
音乐
图片
更多
看书
微视
主播
统计
友链
留言
关于
论坛
邮件
推荐
我的云盘
我的搜索
我的记录
我的图片
我的图书
我的笔记
我的音乐
我的影视
我的邮件
Search
1
virtuoso和empyrean alps模拟仿真和混仿教程
165 阅读
2
在IC617中进行xa+vcs数模混仿
163 阅读
3
科普:Memory Compiler生成的Register file和SRAM有何区别?
153 阅读
4
文档内容搜索哪家强? 15款文件搜索软件横向评测
120 阅读
5
vcs debug rtl或者netlist 中的loop
85 阅读
默认分类
芯片市场
数字电路
芯片后端
模拟电路
芯片验证
原型与样片验证
算法与架构
DFX与量产封装
PC&Server OS设置
移动OS设置
软件方案
新浪备份
有道备份
登录
Search
标签搜索
AI
python
Docker
vcs
PyQT
STM32
cadence
linux
systemverilog
EDA
Alist
vscode
uos
package
MCU
C
QT
CXL
sed
sv
bennyhe
累计撰写
378
篇文章
累计收到
31
条评论
首页
栏目
默认分类
芯片市场
数字电路
芯片后端
模拟电路
芯片验证
原型与样片验证
算法与架构
DFX与量产封装
PC&Server OS设置
移动OS设置
软件方案
新浪备份
有道备份
页面
游戏
影视
直播
广播
听书
音乐
图片
看书
微视
主播
统计
友链
留言
关于
论坛
邮件
推荐
我的云盘
我的搜索
我的记录
我的图片
我的图书
我的笔记
我的音乐
我的影视
我的邮件
搜索到
378
篇与
的结果
2026-04-10
AI专题七:大模型的参数
大模型也是有大有小的,它们的大小靠参数数量来度量。GPT-3就有1750亿个参数,而Grok-1更是不得了,有3140亿个参数。当然,也有像Llama这样身材苗条一点的,参数数量在70亿到700亿之间。这里说的70B可不是指训练数据的数量,而是指模型中那些密密麻麻的参数。这些参数就像是一个个小小的“脑细胞”,越多就能让模型更聪明,更能理解数据中那些错综复杂的关系。有了这些“脑细胞”,模型在处理任务时可能就会表现得更好。大模型的这些参数就像是模型内部的“建筑师”,通过复杂的算法和训练过程,一点一滴地搭建起这个庞大的语言世界。每个参数都有它的作用,它们共同协作,让模型能够更准确地理解我们的语言,并给出更合适的回答。那么,大模型中的参数是怎样构成的呢?大模型中的参数大模型参数是其“内部零件”,这些零件各有各的用途,通常包括但不限于以下几类:权重(Weights):权重就像神经网络里的“电线”,连接着各个神经元。它们负责调整信号传递时的“音量”,让重要的信息传得更远,不那么重要的信息就小声点。比如在全连接层里,权重矩阵W就是一张“地图”,告诉我们哪些输入特征和输出特征关系最密切。偏置(Biases):偏置就像是神经元的“小助手”,负责给神经元的响应定个基准。有了它,神经元就知道自己该在什么水平上活跃了。注意力机制的参数(Attention Parameters):在基于Transformer的模型中,这些参数就像是“指南针”,告诉模型哪些信息最值得关注。它们包括查询矩阵、键矩阵和值矩阵等,就像是在一大堆信息中找出最关键的“线索”。嵌入矩阵(Embedding Matrices):在处理文本数据时,嵌入矩阵就是模型的“字典”。每一列都代表一个词汇,用一个数来表示这个词。这样,模型就能理解文本的意思了。隐藏状态初始化参数(Initial Hidden State Parameters):这些参数就是用来设置模型最初的隐藏状态的,就像是给模型定个基调,让它知道从哪里开始“思考”。......这些参数一般会使用4种表达和存储的格式:Float: 32比特的浮点数,即4字节Half/BF16: 16比特的浮点数,即2字节Int8: 8比特的整数,即1字节Int4: 4比特的整数,即0.5字节一般来说,参数的数量是影响大模型性能的主要因素。例如,13B-int8模型通常优于同一体系结构的7B-BF16模型。大模型参数对内存的需求对于工程师而言,面对的是大模型训练或推理时会使用多少的内存资源。尽管 V100(有32 GB 的 GPU 内存)或 A100(有40 GB 的 GPU 内存)很强大,然而,大模型却并不能使用 Tensorflow 或 PyTorch 的单个 GPU 上进行训练。2.1 训练阶段的内存需求在模型训练期间,主要体现为模型状态和激活过程对内存的存储需求。模型状态包括由优化器状态、梯度和参数组成的张量。激活过程中包括在正向通道中创建的任何张量,这些张量是在反向通道中梯度计算所必需的。在训练的任何时候,对于每个模型参数,总是需要有足够的 GPU 内存来存储:模型参数复制的字节数x梯度复制的字节数y优化器状态一般为12个字节,主要是参数、方差等的拷贝,会将所有优化器状态保存在 FP32中,以保持稳定训练并避免数值异常。这意味着,训练时需要如下内存来存储所有的模型状态和过程数据:(x+y+12 ) * model_size2.2 推理阶段的内存需求推理阶段利用预先训练好的 LLM 完成文本生成或翻译等任务。在这里,内存需求通常较低,主要的影响因素:有限的上下文: 推理通常处理较短的输入序列,需要较少的内存来存储与较小的文本块相关的激活。无反向传播: 在推理过程中,LLM 不需要保留反向传播的中间值,这是一种用于训练调整参数的技术。这消除了大量的内存开销。推理阶段所需的内存不会高于相同参数计数和类型的训练阶段所需内存的四分之一。例如,对于一个7B的模型而言,大体上,使用浮点精度需要28GB内存,使用BF16精度需要14GB内存,使用int8精度需要7GB内存。这个粗略的估计方式可以相应地应用到其他版本的模型。另外,当根据特定任务调整 LLM 时,微调需要更高的内存占用。微调通常包括更长的训练序列来捕捉目标任务的细微差别。当 LLM 处理更多的文本数据时,这将导致更大的激活。反向传播过程需要存储用于梯度计算的中间值,这些中间值用于在训练期间更新模型的权重。与推理相比,这增加了大量的内存负担。2.3 基于Transformer的大模型的内存估算具体而言, 对应基于Transformer的大模型,尝试计算一下训练时所需的内存,其中设:l :transformer的层数a:attention 的head 数量b:批次大小s:序列长度h:隐藏层的维度大小p:精度这里, bshp = b s h * p 代表了输入数据量的大小。在transformer 的线性层部分,大概需要9bshp+bsh 的空间来用于后面的激活。在attention 部分,self-attention 可以表达为:softmax((XQ)(XK)^T)XV那么,XQ,XK,XV均需bshp大小的空间。在标准self-attention中,乘法(XQ) (XK) ^ T 的结果只是一个包含 logit 的 b s s 矩阵。然而在实践中,由于使用了多头注意力机制,需要为每个头都要建立一个单独的 s s 存储空间。这意味着需要 abssp 字节的空间,而存储 softmax 的输出也同样需要 abssp 字节。在 softmax 之后还一般需要额外的 abss 字节来存储掩码,所以 attention部分需要2abssp+abss的存储空间。此外,transformer中还有两个Norm layer,每个仍需bshp的存储空间,共2个bshp。所以,基于Transformer 的大模型训练所需内存大约为:L(9bshp+bsh+2abssp+abss +2bshp) = Lbshp[16+2/p+(as/h)(2+1/p)]解释一下,训练基于Transformer 的大模型所需内存大约是:模型的层数 x 训练批次的大小 x 序列长度 x 隐藏层的维度 x 精度 x 大于16的整数这或许就是基于Transfromer的大模型参数对训练时内存需求的一个理论下界。大模型参数对GPU 的需求有了大模型参数对内存的要求, 可以进一步估算大模型在训练和推理中所需的GPU数量。但由于GPU数量估算依赖的参数稍多,有人(Dr. Walid Soula,https://medium.com/u/e41a20d646a8)给出了一个粗略估算的简单公式, 在工程上同样有一定的参考意义。其中,Model’s parameters in billions 是以B为单位的模型参数数量;18是训练期间不同组件的内存占用因子;1.25 代表了激活过程所需的内存数量因子,激活是随着模型处理输入数据而变化的动态数据结构。GPU Size in GB是可用的 GPU 内存总量举个实际的例子,假设使用的是 NVIDIA RTX 4090 GPU,它有24GB 的 VRAM,计算一下训练‘ Llama3 7B’模型所需的 GPU 数量,大约为 :GPU 的总数≈(7 18 1.25)/24,大约等于7对于推理而言, 可以简化为训练阶段的1/8~1/9 , 当然,这些只是一般意义的粗略估计。由大模型参数到分布式训练理解大模型参数的组成及其对内存和GPU的需求,有助于深入掌握分布式训练在工程实践中所面临的挑战。采用专为分布式训练设计的框架,例如TensorFlow或PyTorch,可以显著简化分布式训练策略的实施过程,这些框架提供了丰富的工具和API。通过运用梯度累积等技术在更新模型前,或利用梯度压缩等技术减少节点间的数据交换量,可以有效降低通信成本。确定分布式训练的最佳批次大小(即前文提到的参数b)至关重要;b值过小可能增加通信开销,而过大则可能导致内存不足。LLMOps的重要性日益凸显。定期监控为分布式训练配置的性能指标,调整超参数、分区策略和通信设置以优化性能,是提升训练效率的关键。实施模型的检查点机制并在发生故障时进行有效的恢复,可以确保训练过程在无需从头开始的情况下继续进行。换句话说,大模型的训练/推理本质上是一个复杂的分布式系统架构工程挑战,例如:通信开销:在执行梯度计算和数据更新时,通信所需时间可能会影响整体的加速效果。同步复杂性:多台机器并行训练时,同步的复杂性需要谨慎设计。容错与资源管理:单点故障对模型训练和推理的影响,以及CPU与GPU的资源分配与调度策略。......然而,实际上大多数工程师可能并不直接参与具体的训练工作,而是关注在构建应用时可以如何利用大模型的参数。大模型应用中使用的参数了解大模型应用的编程范式,即面向Prompt的编程,可以参考相关文字如《解读提示工程(Prompt Engineering)》和《Agent 应用于提示工程》以及《提示工程中的10个设计模式》。这里主要关注在使用大模型输出文本时,可以配置的三个参数:Temperature、Top-K和Top-P。Temperature参数通常被误解为仅控制模型创造性的开关,但其实它更深层的作用是调节概率分布的“软性”。当Temperature值设置较高时,概率分布变得更柔和、均匀,这促使模型生成更多样化、具创造性的输出。反之,较低的Temperature值会使分布更尖锐,峰值更明显,从而倾向于产生与训练数据类似的输出。Top-K参数用于限制模型在每个步骤中输出最可能的Top-K个标记,通过这种方式可以减少输出中的不连贯或无意义内容。这种策略在维持输出的最有可能的一致性与允许一定程度的创造性抽样之间形成平衡。Top-P是另一种解码方法,它根据设定的P值(0≤P≤1)来选择一组累积概率超过P值的最小单词集合作为输出。这种方法使得选中的单词数量能够根据下一个单词的概率分布动态地增加或减少。特别地,当P值为1时,Top-P会选择所有单词,相当于从整个分布中抽样,从而产生更加多样的输出;而当P值为0时,Top-P仅选择概率最高的单词,类似于贪婪解码,使输出更加集中和一致。这三个参数共同作用,影响模型的行为。例如,当设置Temperature=0.8、Top-K=36以及Top-P=0.7时,模型首先基于上下文计算整个词汇表的完整非规范化对数概率分布。Temperature=0.8意味着每个对数概率除以0.8,这在归一化前有效地增加了模型对其预测的信心。Top-K=36表示选择具有最高频比例对数概率的36个标记。接着,Top-P=0.7在这个Top-K=36集合中应用过滤,按概率从高到低保持排序,直到累积概率达到0.7。最后,将这个过滤后的集合重新归一化,用于后续的采样过程。在大模型领域,我们常常会看到诸如 7B、32B、671B 这样的表述,这里的 “B” 是 “billion” 的缩写,意为 “十亿” ,用于量化大模型所包含的参数数量。参数是模型在训练过程中学习和调整的数值,参数规模在一定程度上影响着模型的性能、理解能力与生成能力。通常,参数越多,模型能够学习到的知识和模式就越丰富,理论上在处理复杂任务时表现也会更出色。接下来,为你详细梳理当前主流大模型的参数规模及特点。DeepSeek:参数多元的性能先锋DeepSeek 拥有多个版本,不同参数规模满足多样场景需求。轻量级版本:像 DeepSeek-R1-7B(70 亿参数),是轻量级代表,适合移动设备或边缘计算场景,在实时对话、简单问答等资源受限场景中,响应快速且部署成本低。企业级应用版本:DeepSeek-R1-13B(130 亿参数)和 DeepSeek-R1-14B(140 亿参数)在性能和资源消耗间取得平衡,可处理较复杂任务,无论是企业日常办公还是特定领域应用,都能较好兼顾。高性能版本:DeepSeek-R1-32B(320 亿参数)和 DeepSeek-R1-35B(350 亿参数)拥有更强的表示能力,在复杂推理、多步逻辑处理上优势明显,适用于高性能服务器或云端部署,应对高复杂度任务。旗舰级版本:DeepSeek-V3(6710 亿参数)采用混合专家(MoE)架构,为满血旗舰版,专为复杂推理、数学运算、代码生成等高难度任务设计,支持思维链推理,性能接近 GPT-4 等顶级模型,但需要专业服务器集群支持。蒸馏版本:DeepSeek-R1-Distill 蒸馏版,参数覆盖 1.5B 至 70B,基于开源模型微调,硬件需求低,便于本地部署。ChatGPT:行业标杆的参数演进ChatGPT 背后的 GPT 系列模型,随着版本迭代参数规模不断扩大。早期探索:GPT-1 包含 1.1 亿参数,基于 Transformer 架构,能生成连贯文本,但在复杂上下文理解和逻辑推理上存在局限。能力提升:GPT-2 参数增加到 15 亿,生成文本质量和多样性显著提高,可用于高质量文本生成和创意写作。里程碑式突破:GPT-3 参数达 1750 亿,无需专门微调即可执行多种自然语言处理任务,语言理解和生成能力大幅提升。后续的 ChatGPT-3.5、GPT-4 以及 ChatGPT-4-O 等版本,参数规模进一步增加,不断优化上下文理解、任务泛化能力,甚至引入多模态处理能力。通义千问:参数丰富的全能选手通义千问拥有从低到高不同参数规模的模型。轻量级模型:如 Qwen1.5-0.5B(5 亿参数)和 Qwen1.5-1.8B(18 亿参数),属于轻量级,可在资源有限设备上运行,处理简单语言任务。中等规模模型:Qwen1.5-4B(40 亿参数)具备一定推理能力,可用于文本摘要、简单语言推理等中等规模任务。大规模模型:Qwen1.5-7B(70 亿参数)、Qwen1.5-14B(140 亿参数)等在语言理解、生成和推理方面表现出色。而 Qwen1.5-72B(720 亿参数)和 Qwen1.5-110B(1100 亿参数)更是性能强大,在多项基准测评中成绩卓越。此外,Qwen2 系列以及视觉推理等模型,也在各自领域发挥着重要作用。华为盘古:多元架构的实力担当华为盘古大模型在不同领域发挥优势。超大规模模型:盘古 Ultra MoE 拥有 7180 亿参数,是混合专家模型(MoE),基于昇腾全栈软硬件协同研发,可处理复杂大规模任务。优化适配模型:盘古 Pro MoE(72 亿参数)为 MoE 架构,针对昇腾 300I Duo 芯片优化设计,适用于企业级应用。领域专用模型:盘古 CV 大模型(300 亿参数)用于计算机视觉,盘古 NLP 7B 小模型(7 亿参数)则用于自然语言处理领域。Llama:开源生态的参数矩阵Llama 系列模型推出多个参数版本。初代版本:Llama-1 有 7B、13B、30B 和 65B 四个参数量版本,在超过 1T token 的语料上预训练,采用基于解码器架构。升级版本:Llama-2 有 7B、13B、34B 和 70B 四个参数量版本,预训练语料扩充到 2T token,上下文长度翻倍。专业版本:Code-Llama 专注代码生成,同样有 7B、13B、34B 和 70B 四个参数量版本。新一代版本:Llama-3 有 8B 和 70B 两个参数量版本,支持 8K 长文本,性能优异。大模型的参数规模是其能力的重要体现,但并非唯一决定因素。模型的性能还受训练数据、算法架构、优化策略等多种因素影响。随着技术发展,未来还会有更多不同参数规模、性能卓越的大模型涌现,持续推动人工智能领域的进步。以上便是主流大模型的参数汇总与介绍,希望能为你带来有价值的信息。若你对某类模型还有更深入的疑问,或是想了解其他相关内容,欢迎随时和我说!编辑分享我要在华为云官网发博客,把以上的内容给我扩充下,在前文把B的含义尽可能的说清楚,参数量含义说清楚,同时对列出的几个模型的所有分类,包括蒸馏版本都累出来,已完成思考大模型参数规模解析:从 “B” 到性能的深度解读一、参数规模的核心概念与技术内涵在人工智能领域,“B” 是 “Billion” 的缩写,代表十亿级参数量,这是衡量大模型复杂度的核心指标。参数本质是神经网络中的可调节权重与偏差,它们通过学习海量数据中的模式,决定了模型的信息处理能力。例如,一个 32B(320 亿)参数的模型意味着其内部包含 320 亿个可优化的数值变量,这些变量在训练过程中动态调整,以实现对文本、图像等多模态数据的理解与生成。参数规模直接影响模型的三个关键能力:知识储备量:10-50B 级模型可处理基础逻辑推理,而 100B + 级模型能记忆复杂概念并提供细粒度解释。例如,GPT-3(175B)能生成连贯的技术文档,而 DeepSeek-R1-671B(6710 亿)可解析高等数学问题。推理复杂度:参数越多,模型越擅长因果推理、数学计算等任务。如 Qwen1.5-72B(720 亿)在 MATH-500 基准测试中 Pass@1 达 94.3%,远超 7B 模型的 82%。计算资源需求:100B 级模型通常需要数十张 A100 GPU 支持推理,而轻量级模型(如 7B)可在普通服务器运行。华为盘古 Pro MoE(720 亿)通过昇腾芯片优化,单卡推理速度达 1148 tokens/s,显著优于同类模型。二、主流大模型参数矩阵与技术演进以下从参数规模、架构创新、应用场景三个维度,系统梳理 DeepSeek、ChatGPT、通义千问、华为盘古、Llama 五大模型家族的全系列版本:(一)DeepSeek:参数多元的性能先锋旗舰架构:DeepSeek-V3(6710 亿参数):采用混合专家(MoE)架构,每个 Token 激活约 37B 参数,支持思维链推理,数学能力接近 GPT-4。DeepSeek-R1 系列:R1-7B(70 亿):轻量级版本,适合边缘计算,响应速度达 60 tokens/s。R1-32B(320 亿):企业级推理模型,AIME 2024 基准测试 Pass@1 达 72.6%。R1-671B(6710 亿):满血版需专业服务器集群,数学性能超越 Llama3-70B。蒸馏优化:R1-Distill:基于 Qwen/Llama 架构的蒸馏模型,参数覆盖 1.5B-70B。例如:Qwen-32B(320 亿):数学推理能力媲美 DeepSeek-R1,INT8 量化后精度与 FP8 持平。Llama-8B(80 亿):通用推理模型,适合代码生成与多语言任务。(二)ChatGPT:行业标杆的参数演进基础版本:GPT-1(11 亿):Transformer 架构雏形,仅支持基础文本生成。GPT-3(1750 亿):首次实现零样本学习,参数量是 GPT-2 的 116 倍。优化版本:ChatGPT-3.5:在 GPT-3 基础上增加参数,上下文理解能力提升 30%。GPT-4:参数规模未公开,但引入多模态处理,支持图像输入与复杂逻辑。蒸馏应用:RM 模型(6 亿参数):GPT-3 的蒸馏版本,用于奖励模型训练,提升对话对齐度。(三)通义千问:参数丰富的全能选手Qwen1.5 系列:0.5B-110B:覆盖轻量级到千亿级,支持 32K 上下文。例如:Qwen1.5-72B(720 亿):基于 3T tokens 训练,长文本处理能力突出。Qwen1.5-110B(1100 亿):首个千亿开源模型,MMLU 测评超越 Llama2-70B。Qwen2 系列:0.5B-72B:引入 GQA 机制,支持 128K 上下文。例如:Qwen2-72B(720 亿):性能超过 Llama3-70B,完美处理 128K 信息抽取。Qwen3 系列(2025 年 4 月发布):0.6B-235B:支持 119 种语言,基于 36T tokens 训练,旗舰模型 Qwen3-235B-A22B 在编码、数学任务中对标 GPT-4。(四)华为盘古:多元架构的实力担当超大规模模型:盘古 Ultra MoE(7180 亿):MoE 架构,昇腾全栈协同优化,支持复杂科学计算。盘古 Pro MoE(720 亿):激活参数 160 亿,昇腾 300I Duo 单卡推理速度达 1148 tokens/s,开源推理代码支持私有化部署。领域专用模型:盘古 CV 大模型(300 亿):视觉 MoE 架构,融合红外 / 激光点云数据,用于工业质检。盘古 NLP 7B(7 亿):支持百万级上下文,通过渐进式 SFT 提升垂直领域适配性。轻量优化:盘古 Embedded 7B(70 亿):昇腾 NPU 深度优化,AIME 基准测试超越 Qwen3-8B,支持快速响应与高质量推理动态切换。(五)Llama:开源生态的参数矩阵Llama-1/2 系列:7B-70B:Llama-2 预训练数据增至 2T,上下文长度翻倍至 4096,Code-Llama 专注代码生成。Llama-3 系列:8B-405B:Llama-3.1 8B(80 亿):采用 128K 词表,GQA 优化推理效率,性能超越同等开源模型。Llama-3.1 405B(4050 亿):参数规模对标 GPT-4,支持 128K 上下文,在 150 + 数据集测试中表现接近闭源模型。蒸馏实践:Llama3.2 1B(10 亿):通过知识蒸馏将 Llama3.1 8B 压缩,在 Alpaca 指令任务中性能恢复率超 90%。三、参数规模的应用场景与选型策略轻量级部署(1B-10B):场景:移动端应用、实时对话、边缘计算。推荐:DeepSeek-R1-7B(70 亿)、盘古 NLP 7B(7 亿),响应速度达 60 tokens/s,部署成本降低 80%。企业级推理(30B-100B):场景:金融风控、医疗诊断、代码生成。推荐:Qwen2-72B(720 亿)、Llama3.1 70B(700 亿),数学推理精度超 94%,支持多语言任务。复杂任务处理(100B+):场景:科学研究、多模态生成、超大规模数据解析。推荐:DeepSeek-V3(6710 亿)、盘古 Ultra MoE(7180 亿),MoE 架构支持稀疏激活,算力利用率提升 3 倍。四、华为云与参数优化的深度结合华为云通过昇腾芯片 + 盘古模型的软硬协同,为参数优化提供独特优势:MoGE 架构:盘古 Pro MoE(720 亿)采用分组混合专家模型,跨设备负载均衡,推理性能提升 6-8 倍。量化技术:OptiQuant 算法实现 INT8 量化精度与 FP8 持平,降低 50% 存储成本。开源支持:盘古 Pro MoE 推理代码已开源,支持在昇腾 300I Duo 服务器上实现低成本私有化部署。这是Transformer架构大模型的结构超参数汇总表,这些术语的含义如下一、表格里缩写的含义L:是Number of Layers,即Transformer的层数(解码器/编码器的总层数),代表网络堆叠了多少个Transformer基础模块,层数越多模型的表达能力通常越强。H:是Number of Attention Heads,即注意力头的数量,Transformer的多头注意力机制会把隐状态拆分给多个独立的注意力头分别学习,多头数量就是这个值。PE:是Positional Encoding,即位置编码。Transformer本身没有序列位置信息,需要位置编码给输入注入位置顺序信息,图里不同模型用了不同的位置编码方案:比如Learned(可学习位置编码)、RoPE(旋转位置编码,LLaMA等主流模型常用)、ALiBi、相对位置编码等都是不同的位置编码类型。MCL:是Maximum Context Length,即最大上下文长度,代表这个模型一次能处理的最大序列(输入+输出)token数量,比如2048代表最多处理2048个token,4096就是支持4096token的上下文,数值越大模型能处理的长文本能力越强。补充表格里其他常见词:d_model是模型隐藏层的维度,代表每个token输出的特征维度,和模型整体参数量正相关;#H和d_model满足d_model = #H * 每个注意力头的维度。二、大模型的分类:encoder/decoder的含义这是基于Transformer架构,按照结构对大模型做的分类: Transformer的基础结构包含两个核心模块:编码器(Encoder)(双向注意力,可以同时看到序列里所有位置的token)、解码器(Decoder)(带掩码的单向注意力,生成每个位置token时只能看到这个位置之前的token,保证自回归生成的合理性)。按照结构可以分为三类:仅Decoder(Causal decoder,也就是表格里的这类,你说的decoder) 这是当前生成式大语言模型最主流的架构,比如GPT系列、LLaMA、PaLM都属于这类。 整个模型只有因果解码器(Causal Decoder),没有编码器部分,天生适合自回归文本生成(逐字输出内容),能力侧重文本生成、通用语言理解,是现在ChatGPT类开源大模型的主流结构。仅Encoder(Encoder-only) 整个模型只有编码器结构,代表是BERT系列模型。 用双向注意力建模,更适合做理解类任务,比如文本分类、命名实体识别、情感分析,不擅长开放式文本生成,现在很少用作通用大生成模型的基座。Encoder-Decoder(编码器-解码器架构,也就是表格里T5所属的类别) 同时包含编码器和解码器两部分,代表是T5、BART,早期的翻译、摘要模型常用这种结构。 编码器处理输入文本,解码器生成输出文本,兼顾编码输入和生成输出,现在也有不少大模型用这个架构,不过流行度低于纯Decoder架构。另外表格里还有一个Prefix decoder(前缀解码器,也叫前缀LM),是编码器解码器结构的变体,GLM、谷歌T5也有用这种设计:它仅对输入前缀做双向注意力,输出部分依然用单向因果注意力,兼顾了双向编码输入和生成的能力,参效率比传统Encoder-Decoder更优。来自:https://cloud.tencent.com/developer/article/2424058
2026年04月10日
14 阅读
0 评论
0 点赞
2026-04-09
深度学习:从入门到AI芯片架构师
假设你已经掌握解基本的C/python 编程知识,对芯片开发流程有一定经验,对面向对象编程了解,了解一下基本算法。该怎么系统学习深度学习,从入门到AI 芯片架构师?在这里选择的对象是深度学习,其中以transform为主。人工智能和机器学习这个范围太广了,我们还是以学习目前AI目前发展最好的深度学习为目标。阶段一:深度学习基础速成(3-4周)目标:建立直觉,理解神经网络如何工作主题学习重点资源推荐神经网络基础感知机、激活函数、损失函数、反向传播3Blue1Brown《神经网络》视频(B站/Youtube)CNN架构卷积、池化、ResNet结构动手用PyTorch跑ResNet-50推理(不用训练)PyTorch基础Tensor操作、模型加载、前向传播《PyTorch官方教程》快速过一遍Transformer入门自注意力机制、位置编码、多头注意力必读:论文《Attention Is All You Need》+ 李沐讲解视频关键动作:# 您需要能读懂并运行这类代码 import torch from transformers import AutoModel # 加载预训练模型,观察结构 model = AutoModel.from_pretrained("bert-base-uncased") print(model) # 看懂每一层的计算量和数据流 # 统计参数量、计算FLOPs from thop import profile flops, params = profile(model, inputs=(input_ids,))阶段二:Transformer深度解剖(4-6周)⭐核心目标:彻底理解大模型的计算特征(对芯片设计至关重要)2.1 必须掌握的核心概念组件芯片设计意义学习资源Self-AttentionQ×K^T的矩阵乘法、Softmax的数值稳定性手推公式+代码实现FFN(前馈网络)两个大矩阵乘法(计算密集型)观察维度变化LayerNorm/RMSNorm内存访问模式、归一化计算与BatchNorm对比KV Cache推理时的内存瓶颈核心理解增量解码Positional EncodingRoPE相对位置编码(现代LLM主流)关键优化点2.2 大模型架构演进(按时间线)2017 Transformer(基础) ↓ 2018 BERT(Encoder-only,理解任务) 2019 GPT-2(Decoder-only,生成任务) ↓ 2020 GPT-3(175B参数,涌现能力) 2022 LLaMA(开源,高效架构) ↓ 2023 LLaMA 2、ChatGLM(指令微调) 2024 MoE架构(Mixtral、GPT-4)、Mamba(状态空间) ↓ 2025 DeepSeek-V3/R1(MLA注意力、FP8训练)必读论文(按优先级):《Attention Is All You Need》(基础,必读)《LLaMA: Open and Efficient Foundation Language Models》(开源标杆)《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》(MLA注意力,芯片优化关键)《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》(分布式训练,理解通信模式)2.3 动手实验(关键!)# 实验1:观察Attention的计算模式 import torch Q = torch.randn(1, 12, 2048, 64) # (batch, heads, seq_len, head_dim) K = torch.randn(1, 12, 2048, 64) # 计算Attention Score scores = torch.matmul(Q, K.transpose(-2, -1)) / sqrt(64) # 分析:这是O(n²)的内存和计算!序列长度的平方 # 实验2:KV Cache机制 # 理解为什么推理时Prefill和Decode阶段算力需求不同 # 实验3:用transformers库分析模型结构 from transformers import LlamaConfig config = LlamaConfig() print(config) # 看hidden_size, num_attention_heads, intermediate_size阶段三:大模型系统与芯片协同设计(持续深入)目标:理解大模型在芯片上的运行瓶颈主题为什么重要学习资源量化(INT8/FP8/INT4)降低带宽、提升吞吐论文《LLM.int8()》、《FP8-LM》稀疏化/MoE专家并行、条件计算DeepSeek-MoE、Mixtral论文内存墙问题KV Cache压缩、PagedAttentionvLLM论文、《Efficient Memory Management》并行策略数据并行、张量并行、流水线并行、专家并行Megatron-LM、DeepSpeed文档算子优化FlashAttention、Kernel FusionCUDA编程基础、Triton教程关键工具链体验:# 部署体验,理解推理全流程 pip install vllm transformers accelerate # 用vLLM部署模型,观察GPU利用率、内存占用、吞吐 vllm serve meta-llama/Llama-2-7b-chat-hf # 用nvidia-smi观察计算/内存模式 watch -n 1 nvidia-smi阶段四:芯片架构专项(结合您的Verilog/SV背景)目标:将算法理解转化为硬件设计方向具体技能应用场景AI加速器架构脉动阵列、数据流架构、近存计算NPU核心设计内存子系统HBM控制器设计、片上SRAM优化解决内存墙低精度计算FP8/INT8/INT4 MAC单元设计提升能效比互联网络NVLink/PCIe/RDMA协议多卡扩展编译器协同TVM/MLIR、算子映射软硬件协同优化推荐学习:书籍:《深度学习推理优化》《AI芯片架构与设计》开源项目:Rocket Chip、BOOM(RISC-V)、OpenROAD工业实践:研究NVIDIA H100/B200、Google TPU、华为昇腾的架构设计阶段五:软件栈全景:从模型到硅片┌─────────────────────────────────────────┐ │ 应用层:ChatGPT/文心一言/自动驾驶等 │ ├─────────────────────────────────────────┤ │ 框架层:PyTorch/TensorFlow/JAX │ │ → 自动微分、计算图构建、动态/静态图 │ ├─────────────────────────────────────────┤ │ 运行时:PyTorch Dispatcher/TF XLA │ │ → 算子选择、设备管理、内存池 │ ├─────────────────────────────────────────┤ │ 编译优化层:TVM/MLIR/XLA/TensorRT │ │ → 计算图优化、算子融合、内存规划、量化 │ ├─────────────────────────────────────────┤ │ 驱动层:CUDA Driver/ROCm/Level Zero │ │ → 上下文管理、内存分配、任务调度 │ ├─────────────────────────────────────────┤ │ 硬件抽象层:CUDA Runtime/OpenCL/Vulkan │ │ → Stream管理、Kernel启动、同步机制 │ ├─────────────────────────────────────────┤ │ Kernel层:PTX/SASS/LLVM IR/自定义ISA │ │ → 线程网格、共享内存、寄存器分配、指令调度 │ ├─────────────────────────────────────────┤ │ 硬件层:您的AI芯片(NPU/TPU/GPU) │ │ → 计算单元、SRAM/DRAM、互联网络、编解码器 │ └─────────────────────────────────────────┘阶段六:编译器和系统您需要系统学习的六大模块模块1:深度学习编译器(核心!)这是算法到硬件的桥梁,也是芯片软件生态的命脉。编译器主导公司/社区关键概念学习资源XLAGoogleHLO IR、算子融合、布局优化TensorFlow官方文档TVMApache/陈天奇团队Relay IR、Schedule、AutoTVMTVM官方教程、《深度学习编译器》书籍MLIRLLVM/GoogleDialect设计、Lowering、Pass管理MLIR官方文档、Toy TutorialTensorRTNVIDIA图优化、INT8校准、Kernel Auto-tuneNVIDIA开发者文档# 理解:PyTorch模型如何变成芯片能执行的指令? import torch import tvm from tvm import relay # 1. 捕获PyTorch计算图 model = torch.jit.trace(resnet, input_data) # 转为静态图 # 2. 转为Relay IR(中间表示) mod, params = relay.frontend.from_pytorch(model, shape_dict) # 3. 编译优化:算子融合、内存优化、量化 with tvm.transform.PassContext(opt_level=3): lib = relay.build(mod, target="llvm -mcpu=your_chip") # 4. 生成目标代码 lib.export_library("deploy.so") # 您的芯片可加载模块2:GPU/AI芯片编程模型(理解Kernel如何写)技术适用平台核心概念学习路径CUDA C/C++NVIDIA GPUThread/Block/Grid、Shared Mem、Warp、Occupancy《CUDA C Programming Guide》→ 实践矩阵乘法优化HIP/ROCmAMD GPU类似CUDA,理解移植层ROCm官方文档OpenCL跨平台Kernel、Work-item、Buffer对象Khronos官方教程TritonOpenAI/跨平台Python写GPU Kernel、Tile优化Triton官方教程(强烈推荐!)自定义DSL自研芯片设计您芯片的编程接口参考TVM/Triton设计// CUDA示例:理解线程层次结构 __global__ void matmul_kernel(float* A, float* B, float* C, int N) { int row = blockIdx.y * blockDim.y + threadIdx.y; // 块索引+线程索引 int col = blockIdx.x * blockDim.x + threadIdx.x; // Shared Memory优化(您的芯片SRAM同理) __shared__ float As[TILE_SIZE][TILE_SIZE]; __shared__ float Bs[TILE_SIZE][TILE_SIZE]; // 计算并写回 if (row < N && col < N) { C[row * N + col] = sum; } } // 启动配置:理解Occupancy dim3 block(16, 16); // 每个Block 256线程 dim3 grid((N+15)/16, (N+15)/16); // Grid大小 matmul_kernel<<<grid, block>>>(d_A, d_B, d_C, N);模块3:内存系统与数据流(芯片设计的核心瓶颈)主题为什么关键学习要点HBM/GDDR架构内存墙是AI芯片第一瓶颈HBM2e/3e规格、Bank Group、Row Buffer片上SRAM管理决定MAC利用率Scratchpad设计、Bank Conflict、Ping-Pong Buffer数据流优化减少数据搬运Weight Stationary/Output Stationary/Row StationaryDMA与数据传输异步流水线双缓冲、Chaining、优先级管理虚拟内存/页表大模型上下文支持TLB设计、大页支持、按需分页必读论文:《DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning》(寒武纪,经典数据流架构)《Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks》(数据流优化经典)《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》(算法-硬件协同优化标杆)模块4:分布式系统与通信(大模型训练的核心)技术场景关键概念数据并行(DP)小模型大批量All-Reduce梯度同步、Ring-AllReduce张量并行(TP)单层放不下矩阵切分、All-Gather、Reduce-Scatter流水线并行(PP)模型层数多微批次、Bubble优化、1F1B调度专家并行(EP)MoE模型All-to-All通信、负载均衡序列并行(SP)长上下文Ring Attention、上下文切分ZeRO优化显存优化参数/梯度/优化器状态分片通信原语(您的芯片互联需要支持):Point-to-Point: Send/Recv Collective: - Broadcast(广播) - All-Reduce(梯度聚合)← 最频繁 - All-Gather(参数收集) - Reduce-Scatter - All-to-All(MoE专家通信)学习资源:• NCCL(NVIDIA Collective Communications Library)源码• DeepSpeed/Megatron-LM框架文档• 《Efficient Large-Scale Language Model Training on GPU Clusters》模块5:推理引擎与Serving系统(部署侧)系统特点核心机制vLLM高吞吐LLM推理PagedAttention(KV Cache分页管理)、Continuous BatchingTensorRT-LLMNVIDIA优化算子融合、FP8、MHA优化、Inflight BatchingMLC-LLM跨平台部署TVM编译、多种后端支持llama.cpp端侧CPU推理GGUF量化、NEON/AVX优化您的自研框架针对芯片优化设计推理调度器、内存池、Batch策略关键理解:# PagedAttention核心思想(vLLM) # 传统:为每个请求预分配最大长度内存 → 浪费严重 # PagedAttention:将KV Cache分块,像OS虚拟内存一样动态分配 # 对芯片设计的启示: # 1. 需要支持动态内存分配/释放 # 2. 需要高效的Scatter-Gather DMA # 3. 需要支持变长序列的并行计算模块6:芯片软件生态工具链(您可能需要构建)作为AI芯片开发者,您可能需要设计或理解:组件功能参考实现Runtime设备管理、内存池、Stream调度CUDA Runtime、HIP RuntimeDriver硬件初始化、中断处理、功耗管理NVIDIA GPU Driver、ROCrProfiler性能分析、瓶颈定位Nsight Systems/Compute、rocProfDebuggerKernel调试、内存检查CUDA-GDB、rocGDBSimulator指令级/周期级仿真gem5、NVSim、自研Benchmark标准化评测MLPerf Inference/Training最后总结学习路线:第1个月:建立Transformer直觉周次任务产出W13Blue1Brown神经网络视频 + PyTorch基础能加载并推理ResNetW2手推Self-Attention公式 + 实现简单Transformer理解Q/K/V计算流W3精读Attention Is All You Need + 李沐讲解能画出完整架构图W4用HuggingFace加载BERT/GPT-2,分析每层参数输出模型结构分析报告第2个月:深入大模型系统周次任务产出W5-W6精读LLaMA、DeepSeek-V2论文理解现代高效架构W7学习vLLM/FlashAttention,观察GPU性能特征能分析推理瓶颈W8研究量化技术(GPTQ/AWQ),理解精度-效率权衡能指导量化硬件设计关键资源汇总类型资源链接/说明视频李沐《动手学深度学习》B站,PyTorch版视频李宏毅《机器学习》中文经典,理论扎实论文Papers With Code跟踪最新SOTA代码transformers库源码理解工程实现细节工具Netron可视化模型结构,超有用!社区HuggingFace、arXiv cs.LG/CL跟踪最新动态第3个月:AI 芯片架构书籍:《深度学习推理优化》《AI芯片架构与设计》开源项目:Rocket Chip、BOOM(RISC-V)、OpenROAD工业实践:研究NVIDIA H100/B200、Google TPU、华为昇腾的架构设计第4个月:编译器与IR周任务产出W1学习MLIR Toy Tutorial,理解Dialect概念能定义简单DialectW2学习TVM Relay,将PyTorch模型编译到LLVM跑通端到端编译W3研究XLA HLO,理解算子融合策略能分析XLA生成的HLO图W4阅读《TVM: An Automated End-to-End Optimizing Compiler for Deep Learning》理解编译器架构设计第5个月:Kernel编程与优化周任务产出W5学习CUDA编程,实现优化版矩阵乘法(Shared Memory、Tiling)达到cuBLAS 80%性能W6学习Triton,用Python写FlashAttention核心理解Tile优化W7分析CUTLASS源码(NVIDIA模板库),理解分层抽象能修改模板适配新算子W8研究您目标芯片的指令集,设计简单Kernel在Simulator上跑通第6个月:系统与通信周任务产出W9学习NCCL源码,理解Ring-AllReduce实现能分析通信瓶颈W10研究DeepSpeed ZeRO-3,理解参数分片能计算通信量W11学习vLLM架构,理解Serving系统调度能设计推理调度器W12整合:设计您芯片的端到端软件栈原型文档+代码框架关键资源汇总类型资源说明书籍《深度学习编译器》国内首部系统介绍书籍《Programming Massively Parallel Processors》CUDA编程圣经课程CMU 15-418/618 Parallel Computer Architecture理解并行系统课程Stanford CS217 Hardware Accelerators for Machine Learning芯片架构开源TVM、MLIR、XLA、vLLM、DeepSpeed直接读源码论文MLSys会议论文机器学习系统顶会论文ISCA/MICRO/HPCA计算机体系结构顶会您的终极目标是:让PyTorch模型无缝运行在您设计的芯片上,且性能/能效达到最优这需要打通:算法语义 → 中间表示 → 硬件指令 → 执行单元 的全链路,而编译器(TVM/MLIR)正是这个桥梁的核心。
2026年04月09日
11 阅读
0 评论
0 点赞
2026-04-09
AI专题六:主流的大模型分类
一、按架构类型分类架构类型特点代表模型Decoder-only(自回归)从左到右生成,适合文本生成GPT-4、Claude、LLaMA、Qwen、ChatGLMEncoder-only(双向编码)双向理解,适合分类/理解任务BERT、RoBERTa、ERNIE(早期)Encoder-Decoder(序列到序列)编码器+解码器,适合翻译/摘要T5、BART、GLM(清华)、UL2当前趋势:Decoder-only占据主导(GPT系列成功带动),Encoder-Decoder仍有特定场景应用。二、按模态类型分类大语言模型(LLM)- 纯文本类型商业模型开源模型通用对话GPT-4/4o、Claude 3.5、Gemini、Kimi、文心一言、通义千问LLaMA 3、Qwen 2.5、Mistral、DeepSeek-V3、ChatGLM3、Yi代码专用GitHub Copilot、CursorCodeLLaMA、DeepSeek-Coder、StarCoder、WizardCoder推理专用OpenAI o1/o3、Claude 3.5 Sonnet (Thinking)DeepSeek-R1、Qwen-QwQ、Marco-o1多模态大模型(MLLM)- 文本+图像/视频/音频模态组合代表模型文本+图像GPT-4V、Claude 3、Gemini、Qwen-VL、LLaVA、CogVLM、InternVL文本+视频Sora、Runway Gen-3、可灵、Pika、VideoPoet文本+音频GPT-4o(原生多模态)、Qwen-Audio、SpeechGPT全模态统一GPT-4o、Gemini 1.5 Pro、Qwen2.5-Omni视觉大模型类型代表模型图像理解/分割SAM 2(Meta)、CLIP(OpenAI)、EVA、InternViT图像生成DALL-E 3、Midjourney、Stable Diffusion 3、FLUX、Imagen视频生成Sora、可灵、Runway、Pika、CogVideo语音大模型类型代表模型语音识别Whisper(OpenAI)、FunASR(阿里)语音合成VALL-E、Voicebox、CosyVoice语音对话GPT-4o Voice、豆包语音、MiniMax语音大模型三、按应用领域分类领域代表模型/系统科学计算AlphaFold 3(蛋白质结构)、GraphCast(天气预报)、DeepMind材料发现模型数学推理OpenAI o1、DeepSeek-R1、Qwen2.5-Math、NuminaMath法律通义法睿、ChatLaw、PowerLawGLM医疗Med-PaLM 2、HuatuoGPT、扁鹊、BioGPT金融BloombergGPT、FinGPT、度小满轩辕教育Khanmigo(可汗学院)、松鼠AI大模型编程/软件GitHub Copilot、Devin、Cursor、通义灵码四、按训练方法/特性分类类型说明代表预训练大模型基础模型,需微调GPT-3、LLaMA 2、BERT指令微调模型(IFT)对齐人类指令ChatGPT、Alpaca、VicunaRLHF对齐模型基于人类反馈强化学习GPT-4、Claude、InstructGPTMoE架构模型混合专家,稀疏激活GPT-4(推测)、Mixtral 8x7B/8x22B、DeepSeek-V3、Qwen1.5-MoERAG增强模型结合外部知识检索多数现代模型都支持Agent模型具备工具调用/自主规划AutoGPT、GPT-4 with Tools、Claude with Computer Use、智谱AutoGLM五、开源 vs 商业 一览主流开源大模型(可免费使用/部署)机构模型系列特点MetaLLaMA 3(8B/70B/405B)开源可商用,社区生态最大阿里Qwen 2.5(0.5B-72B)、Qwen-VL、Qwen-Audio中文最强开源,多模态全面DeepSeekDeepSeek-V3、DeepSeek-R1性能接近GPT-4,成本极低MistralMistral 7B、Mixtral 8x7B/8x22B、Mistral Large欧洲最强,MoE架构智谱AIChatGLM3/4、GLM-4-9B中文友好,学术开源零一万物Yi-1.5(6B/9B/34B)李开复团队,长文本优秀百川智能Baichuan 2中文开源,商用友好Stability AIStable LM、Stable Diffusion图像生成领域开源标杆Hugging FaceBLOOM、Zephyr、StarCoder社区驱动,多语言支持GoogleGemma(2B/7B/9B/27B)轻量级开源,可端侧部署主流商业大模型(API/闭源)公司模型特点OpenAIGPT-4o、GPT-4 Turbo、o1/o3全球最强通用模型AnthropicClaude 3.5 Sonnet/Haiku/Opus长文本、安全性突出GoogleGemini 1.5 Pro/Flash/Ultra原生多模态,长上下文(200万token)月之暗面Kimi K1.5中文长文本(200万字)领先百度文心一言 4.0、文心大模型中文知识增强阿里通义千问 Max、Qwen-Turbo开源+商业双轨字节跳动豆包大模型、云雀多模态,C端产品强腾讯混元大模型中文语境优化MiniMaxabab 6.5、海螺AI语音多模态商汤日日新 SenseNova视觉多模态强六、技术趋势总结趋势说明多模态统一从文本→图文→音视频→全模态(GPT-4o方向)端侧小模型手机/PC本地运行(Gemma、Phi-3、Llama 3.2 1B/3B)MoE架构普及用稀疏激活降低推理成本(Mixtral、DeepSeek-V3)推理能力强化o1/R1类"慢思考"模型,专门优化逻辑推理Agent化从对话工具向自主任务执行演进开源追赶闭源DeepSeek-R1、Qwen2.5等已接近GPT-4水平七 chagpt5 ,deepseek v3.2, 豆包 属于哪一类大模型这三个模型都属于大语言模型(LLM)的范畴,但各有细分特点:模型公司架构类型核心定位突出特点GPT-5OpenAIDecoder-only通用AGI助手多模态原生、推理能力、Agent执行DeepSeek V3.2DeepSeekDecoder-only (MoE)开源高性能极致性价比、代码/数学强、低成本豆包字节跳动Decoder-onlyC端AI助手中文优化、语音交互、多模态内容创作详细分类GPT-5(OpenAI)维度说明类型通用大语言模型(闭源商业)架构Decoder-only,推测继续沿用MoE模态原生多模态(文本+图像+音频+视频统一)特色能力高级推理(o系列技术融合)、自主Agent执行、深度研究定位当前全球最强通用模型,追求AGIDeepSeek V3.2(深度求索)维度说明类型通用大语言模型(开源可商用)架构Decoder-only + MoE(混合专家)参数规模总参数量大,但推理时只激活部分专家(节省算力)突出优势代码生成、数学推理、中文能力、API成本极低定位"开源版GPT-4",性价比之王豆包(字节跳动)维度说明类型通用大语言模型 + C端AI助手产品架构Decoder-only(基于云雀模型)产品形态App + 网页 + API + 嵌入抖音/飞书生态突出优势语音交互自然、中文语境理解、内容创作(文案/脚本/视频)、年轻化表达定位中国C端用户量最大的AI助手之一八 chagpt5 属于LLM,为什么又是多模态呢? LLM 不是用来处理语言的?LLM(大语言模型)的定义正在扩展——从"纯文本模型"演变为"以语言为核心接口的多模态模型"。GPT-5这类模型虽然叫"语言模型",但实际上已经突破了纯文本的边界。概念的演变传统定义(早期)LLM = Large Language Model = 纯文本大模型 ↓ 输入:文本 输出:文本 代表:GPT-3、早期BERT 当前定义(2024-2025)LLM = 以"语言"为主要交互接口的大模型 ↓ 输入:文本 / 图像 / 音频 / 视频 处理:统一语义空间理解 输出:文本 / 图像 / 音频 / 视频 代表:GPT-4o、GPT-5、Gemini、Claude 3.5、Qwen2.5-Omni 为什么还叫"LLM"而不是"MM"?原因解释语言是核心接口无论输入什么模态,最终都用"语言"来推理、规划、输出训练基础仍是语言模型核心能力建立在海量文本预训练之上历史命名惯性从GPT-3→GPT-4V→GPT-4o一脉相承,用户认知度高技术实现角度底层仍是Transformer架构,只是输入编码器扩展了GPT-5的多模态是如何实现的?┌─────────────────────────────────────────┐ │ 用户输入(多模态) │ │ 文本 / 图像 / 音频 / 视频 / 文件 │ └─────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────┐ │ 统一编码器(Tokenizer) │ │ • 文本 → Token IDs │ │ • 图像 → Visual Patches(图像块) │ │ • 音频 → Spectrogram Tokens │ │ • 视频 → 时空Visual Patches │ └─────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────┐ │ 统一Transformer架构(核心LLM) │ │ 所有模态在同一个语义空间处理 │ └─────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────┐ │ 输出生成(多模态) │ │ 文本 / 图像 / 音频 / 视频 │ └─────────────────────────────────────────┘关键点:所有模态最终被编码为类似"token"的离散单元,用同一套LLM架构处理。更准确的分类术语为避免混淆,学术界/工业界出现了更精确的术语:术语全称含义代表LLMLarge Language Model纯文本或以文本为主的模型GPT-3、LLaMA 2VLMVision-Language Model视觉-语言模型LLaVA、CogVLMMLLMMultimodal Large Language Model多模态大语言模型GPT-4V、Qwen-VLLMMLarge Multimodal Model大型多模态模型(更通用)GPT-4o、GeminiFoundation Model基础模型泛指所有大规模预训练模型所有上述模型GPT-5的准确分类:MLLM(多模态大语言模型) 或 LMM(大型多模态模型)一句话总结问题答案LLM不是只处理语言吗?传统是,但现在LLM的概念已扩展,GPT-5这类模型本质是以语言为核心的多模态模型为什么还叫GPT(Generative Pre-trained Transformer)?品牌延续性 + 技术架构未变(仍是Transformer)+ 语言仍是核心交互方式更准确的叫法?MLLM(多模态大语言模型) 比纯 LLM 更准确
2026年04月09日
21 阅读
0 评论
0 点赞
2026-04-09
AI专题五: NLP模型 与 LLM(大语言模型)
LLM是NLP模型的一种,是NLP发展到当前阶段的"终极形态"。NLP模型(自然语言处理模型) ├── 传统NLP模型(基于规则/统计) │ ├── 规则系统(正则表达式、专家规则) │ ├── 统计模型(HMM、CRF、n-gram语言模型) │ └── 传统机器学习(SVM、朴素贝叶斯等) │ ├── 深度学习NLP模型(神经网络时代) │ ├── RNN/LSTM/GRU(序列建模) │ ├── CNN(TextCNN等,用于分类) │ ├── Seq2Seq + Attention(机器翻译) │ └── Transformer(BERT、GPT系列) │ └── 大语言模型 LLM(当前阶段) ├── encoder-only(BERT、RoBERTa)← 理解任务 ├── decoder-only(GPT系列、LLaMA、Claude)← 生成任务 └── encoder-decoder(T5、BART)← 翻译/摘要自然语言处理(NLP)是一个涵盖人类语言全场景处理的技术领域,其范畴包括所有用于理解、分析、生成人类语言的模型与技术,小到简单的关键词提取,大到复杂的对话系统构建,均属于NLP的研究与应用范畴。而大型语言模型(LLM)则是NLP领域内的一类特定模型,是近年来NLP技术发展的重要成果之一。从能力边界来看,LLM凭借其独特的设计逻辑,已展现出“通才”属性——能够应对几乎所有经典NLP任务,无论是文本分类、机器翻译,还是情感分析、摘要生成,都能通过其对语言模式的深度理解完成任务。这种适应性源于LLM的预训练机制:通过海量文本数据学习通用语言规律,无需针对单一任务进行专门的模型重构,这与传统NLP中“一事一模型”的模式形成鲜明对比。但需明确的是,LLM并非NLP任务的“万能解”。在某些需要高度专业化、狭义化解决方案的场景中,LLM的表现反而不如专门优化的传统NLP模型 。例如,在工业级的法律条款精准提取任务中,针对法律文本特征定制的规则式NLP模型,准确率和效率会优于通用LLM;在低资源语言的方言识别任务中,小型定制化模型也可能比LLM更具成本优势。从实际应用视角看,LLM的任务覆盖范围与传统NLP技术存在“交集但非完全重合”的关系:LLM的多功能性使其能替代部分传统模型,但传统NLP模型在特定细分场景的“专精性”,仍是LLM短期内难以完全取代的。NLP技术的发展历程中,形成了多元且分层的技术体系,涵盖从基础到复杂的多种方法:• 基础层:基于规则的方法(如正则表达式匹配、语法规则解析),适用于简单的文本过滤、关键词提取等任务;• 中间层:传统机器学习方法(如支持向量机、朴素贝叶斯),需结合人工特征工程,用于文本分类、情感倾向判断等场景;• 高级层:深度学习方法(如循环神经网络RNN、卷积神经网络CNN),通过自动学习文本特征,提升复杂任务的处理能力,常见于命名实体识别、语义角色标注等任务。这些技术各有适用场景,例如在处理结构化文本(如表格型数据中的信息提取)时,基于规则的NLP方法仍能高效发挥作用。LLM的技术路径高度聚焦于深度学习框架下的Transformer架构,其核心创新点在于“自注意力机制”:通过计算句子中每个词语与其他词语的关联权重,动态判断不同词语在语境中的重要性,从而实现对文本上下文的精准理解。例如,在处理“苹果发布了新款手机”与“我吃了一个苹果”时,自注意力机制能区分“苹果”在不同语境中的指代(公司/水果),这是传统NLP模型难以高效实现的。此外,LLM的技术流程呈现“预训练-微调”的特点:先在海量通用文本(如网页、书籍、论文)上完成预训练,构建通用语言认知能力;再根据具体任务(如医疗文本问答)的小样本数据进行微调,快速适配特定场景。这种模式大幅降低了对单一任务数据量的依赖,也是其技术优势的重要来源。
2026年04月09日
12 阅读
0 评论
0 点赞
2026-04-09
AI专题四:大模型概述
一 大模型与深度学习大模型是深度学习发展到一定阶段的产物,但不是实现深度学习的"方式"。更准确地说:深度学习是实现大模型的技术基础,大模型是深度学习在规模维度的延伸和突破。关键区分类比理解可以类比为:一句话总结深度学习是"怎么做"(方法论),大模型是"做成什么样"(结果形态)。所有大模型都是深度学习的产物,但深度学习远不止大模型——它还包括中小规模的CNN、RNN,以及各类专用神经网络架构。大大模型的特点主要表现在以下几个方面:巨大的规模:大模型包含的参数数量巨大,模型大小可以达到数百GB甚至更大。这种巨大的模型规模为模型提供了强大的表达能力和学习能力。预训练方式:大模型通常在大规模数据集上进行预训练,这使得模型能够学习到广泛的知识和模式。预训练完成后,仅需使用少量数据的微调甚至无需微调,模型就能直接支撑各类应用。多任务学习:大模型可以同时处理多个任务,这使得模型能够学习到更广泛的知识和技能。例如,语言模型可以同时学习词义、语法、语义等多个方面的知识。模型架构和技术:大模型可以采用不同的模型架构和技术来优化模型的精度和效率。例如,Transformer模型可以用于处理自然语言处理任务,而卷积神经网络可以用于处理图像识别任务。参数优化:大模型需要进行参数优化,以提高模型的精度和效率。例如,可以使用梯度下降等优化算法来训练模型,同时也可以使用正则化等技术来防止过拟合。数据集要求:大模型需要处理大量的数据才能学到广泛的知识和模式,因此需要使用大规模的数据集。同时,数据集的多样性也能够帮助模型学习到更广泛的知识。大模型具有强大的表示能力和泛化能力,有着广泛的应用前景,而且已经有了一些AGI(通用人工智能)的感觉,但同时也存在巨大的计算和存储成本、难以调试和优化、难以解释和可视化以及难以部署和维护等问题。因此,在实际应用中需要根据具体任务和需求来选择合适规模的模型。二 大模型的分类按应用领域划分通用型大模型:适用于多种任务(如GPT系列、PaLM),具备跨领域的语言理解与生成能力。垂直型大模型:针对特定领域优化(如医疗、金融、法律),例如百川智能的医疗大模型。多模态大模型:融合文本、图像、语音等多种输入形式(如DeepSeek的多模态版本)。按模型架构划分密集模型(Dense Models):全连接参数结构,如GPT-3、BERT。稀疏模型(Sparse Models):如混合专家模型(MoE),通过动态激活部分参数提升效率(如DeepSeek、Kimi)。检索增强生成(RAG):结合检索与生成模块,提升知识准确性与实时性(如ChatPDF系统)。按训练范式划分预训练+微调(Fine-tuning):如BERT,基于大规模预训练后针对特定任务调整。提示学习(Prompt-based Learning):通过自然语言指令驱动模型(如GPT-3、ChatGPT)无需显式微调。强化学习优化(RLHF):结合人类反馈调整生成内容(如InstructGPT、DeepSeek)。按功能类型划分生成型模型:以文本生成为核心(如GPT、PaLM)。理解型模型:侧重语义分析与分类(如BERT)。推理型模型:具备复杂逻辑推理能力(如DeepSeek通过长思维链优化)。三、大模型的核心技术指标模型规模相关指标参数量(Parameters)模型的总可训练参数数量,通常以亿(100M)、十亿(B)、百亿(10B)、千亿(100B)或万亿(T)为单位。例如:GPT-3(175B)、PaLM-2(340B)、Llama 2(7B-70B)。参数越多,模型容量越大,但训练和推理成本也越高。模型架构细节层数(Layers):Transformer的层数(如12层、24层、96层)。注意力头数(Attention Heads):每层中多头注意力机制的头数(如16头、32头)。隐层维度(Hidden Dimension):每层的神经元数量(如1024、4096)。词嵌入维度(Embedding Size):输入词向量的维度。训练数据与计算资源训练数据量预训练数据的规模,通常以Token数量(如1T tokens)或数据体积(如TB级)衡量。数据来源的多样性和质量(如多语言、多领域)也是关键。计算资源消耗训练时间:使用GPU/TPU集群完成训练的总时间(如数千小时)。算力需求:通常以FLOPs(浮点运算次数)表示,例如GPT-3训练需约3.14e23 FLOPs。硬件规模:使用的GPU/TPU数量(如数千块芯片)。训练成本电力消耗、硬件租赁或购买成本(如百万美元级别)。性能评估指标任务表现通用指标:困惑度(Perplexity):衡量语言模型预测能力(越低越好)。准确率(Accuracy)、F1分数:用于分类或生成任务。领域特定指标:BLEU(机器翻译)、ROUGE(文本摘要)、GLUE/SuperGLUE(自然语言理解基准)。Few-shot/Zero-shot Learning:模型在少量或零样本下的泛化能力。推理效率延迟(Latency):单次推理耗时(如毫秒级)。吞吐量(Throughput):单位时间处理的请求数(如每秒处理100个请求)。显存占用:推理时GPU显存需求(如10GB)。能耗与部署指标能效比单位性能(如每秒处理Token数)与能耗(瓦特)的比值,对边缘部署尤为重要。模型压缩与优化量化(Quantization):模型参数精度(如FP32→INT8)对性能的影响。剪枝(Pruning):去除冗余参数后的模型大小和速度提升。蒸馏(Distillation):小模型从大模型中继承知识的效果。其他关键指标鲁棒性(Robustness)对对抗样本、输入噪声的抵抗能力。多语言、多领域任务的稳定性。公平性与安全性偏差(Bias):模型输出中的性别、种族等偏见程度。毒性(Toxicity):生成有害内容的概率。可解释性:模型决策的可追溯性(如注意力可视化)。生态支持开源框架(如Hugging Face、PyTorch)的适配性。社区工具链和预训练模型的可用性。典型大模型指标示例四、典型评估基准与工具通用能力评测MMLU:测试多任务语言理解能力。HellaSwag:评估常识推理与句子补全能力。TruthfulQA:检测生成内容的真实性。行业专用评测医疗领域:注重诊断准确性与用药建议的合规性。金融领域:侧重逻辑推理与数值计算能力(如财报分析)。开源工具SuperCLUE:中文大模型综合评测基准。RAGAS:评估检索增强生成系统的上下文相关性。五、未来趋势与挑战高效架构创新:如MoE模型与稀疏化技术降低算力需求。合成数据优化:通过模型自生成高质量训练数据(如DeepSeek的长思维链策略)。可解释性增强:结合注意力机制可视化与自然语言解释,提升模型透明度。多模态融合:推动文本、图像、视频的统一建模(如GPT-4V)六 大模型与LLM大模型 (Large Models / Foundation Models) ├── 大语言模型 (LLM: Large Language Model) ← 最主流 │ ├── GPT系列 (OpenAI) │ ├── LLaMA (Meta) │ ├── Claude (Anthropic) │ ├── 文心一言、通义千问等 │ └── ... ├── 视觉大模型 (Large Vision Model) │ ├── SAM (Segment Anything) │ ├── CLIP (OpenAI) │ └── DALL-E、Midjourney等 ├── 多模态大模型 (MLLM: Multimodal LLM) │ ├── GPT-4V │ ├── Gemini │ └── Qwen-VL等 └── 科学大模型、代码大模型等垂直领域模型
2026年04月09日
17 阅读
0 评论
0 点赞
1
...
5
6
7
...
76