AI专题六:主流的大模型分类

hegangben
2026-04-09 / 0 评论 / 21 阅读 / 正在检测是否收录...

mnr9lqgi.png

一、按架构类型分类

架构类型特点代表模型
Decoder-only(自回归)从左到右生成,适合文本生成GPT-4、Claude、LLaMA、Qwen、ChatGLM
Encoder-only(双向编码)双向理解,适合分类/理解任务BERT、RoBERTa、ERNIE(早期)
Encoder-Decoder(序列到序列)编码器+解码器,适合翻译/摘要T5、BART、GLM(清华)、UL2

当前趋势:Decoder-only占据主导(GPT系列成功带动),Encoder-Decoder仍有特定场景应用。

二、按模态类型分类

  1. 大语言模型(LLM)- 纯文本

    类型商业模型开源模型
    通用对话GPT-4/4o、Claude 3.5、Gemini、Kimi、文心一言、通义千问LLaMA 3、Qwen 2.5、Mistral、DeepSeek-V3、ChatGLM3、Yi
    代码专用GitHub Copilot、CursorCodeLLaMA、DeepSeek-Coder、StarCoder、WizardCoder
    推理专用OpenAI o1/o3、Claude 3.5 Sonnet (Thinking)DeepSeek-R1、Qwen-QwQ、Marco-o1
  2. 多模态大模型(MLLM)- 文本+图像/视频/音频

    模态组合代表模型
    文本+图像GPT-4V、Claude 3、Gemini、Qwen-VL、LLaVA、CogVLM、InternVL
    文本+视频Sora、Runway Gen-3、可灵、Pika、VideoPoet
    文本+音频GPT-4o(原生多模态)、Qwen-Audio、SpeechGPT
    全模态统一GPT-4o、Gemini 1.5 Pro、Qwen2.5-Omni
  3. 视觉大模型

    类型代表模型
    图像理解/分割SAM 2(Meta)、CLIP(OpenAI)、EVA、InternViT
    图像生成DALL-E 3、Midjourney、Stable Diffusion 3、FLUX、Imagen
    视频生成Sora、可灵、Runway、Pika、CogVideo
  4. 语音大模型

    类型代表模型
    语音识别Whisper(OpenAI)、FunASR(阿里)
    语音合成VALL-E、Voicebox、CosyVoice
    语音对话GPT-4o Voice、豆包语音、MiniMax语音大模型

三、按应用领域分类

领域代表模型/系统
科学计算AlphaFold 3(蛋白质结构)、GraphCast(天气预报)、DeepMind材料发现模型
数学推理OpenAI o1、DeepSeek-R1、Qwen2.5-Math、NuminaMath
法律通义法睿、ChatLaw、PowerLawGLM
医疗Med-PaLM 2、HuatuoGPT、扁鹊、BioGPT
金融BloombergGPT、FinGPT、度小满轩辕
教育Khanmigo(可汗学院)、松鼠AI大模型
编程/软件GitHub Copilot、Devin、Cursor、通义灵码

四、按训练方法/特性分类

类型说明代表
预训练大模型基础模型,需微调GPT-3、LLaMA 2、BERT
指令微调模型(IFT)对齐人类指令ChatGPT、Alpaca、Vicuna
RLHF对齐模型基于人类反馈强化学习GPT-4、Claude、InstructGPT
MoE架构模型混合专家,稀疏激活GPT-4(推测)、Mixtral 8x7B/8x22B、DeepSeek-V3、Qwen1.5-MoE
RAG增强模型结合外部知识检索多数现代模型都支持
Agent模型具备工具调用/自主规划AutoGPT、GPT-4 with Tools、Claude with Computer Use、智谱AutoGLM

五、开源 vs 商业 一览
主流开源大模型(可免费使用/部署)

机构模型系列特点
MetaLLaMA 3(8B/70B/405B)开源可商用,社区生态最大
阿里Qwen 2.5(0.5B-72B)、Qwen-VL、Qwen-Audio中文最强开源,多模态全面
DeepSeekDeepSeek-V3、DeepSeek-R1性能接近GPT-4,成本极低
MistralMistral 7B、Mixtral 8x7B/8x22B、Mistral Large欧洲最强,MoE架构
智谱AIChatGLM3/4、GLM-4-9B中文友好,学术开源
零一万物Yi-1.5(6B/9B/34B)李开复团队,长文本优秀
百川智能Baichuan 2中文开源,商用友好
Stability AIStable LM、Stable Diffusion图像生成领域开源标杆
Hugging FaceBLOOM、Zephyr、StarCoder社区驱动,多语言支持
GoogleGemma(2B/7B/9B/27B)轻量级开源,可端侧部署

主流商业大模型(API/闭源)

公司模型特点
OpenAIGPT-4o、GPT-4 Turbo、o1/o3全球最强通用模型
AnthropicClaude 3.5 Sonnet/Haiku/Opus长文本、安全性突出
GoogleGemini 1.5 Pro/Flash/Ultra原生多模态,长上下文(200万token)
月之暗面Kimi K1.5中文长文本(200万字)领先
百度文心一言 4.0、文心大模型中文知识增强
阿里通义千问 Max、Qwen-Turbo开源+商业双轨
字节跳动豆包大模型、云雀多模态,C端产品强
腾讯混元大模型中文语境优化
MiniMaxabab 6.5、海螺AI语音多模态
商汤日日新 SenseNova视觉多模态强

六、技术趋势总结

趋势说明
多模态统一从文本→图文→音视频→全模态(GPT-4o方向)
端侧小模型手机/PC本地运行(Gemma、Phi-3、Llama 3.2 1B/3B)
MoE架构普及用稀疏激活降低推理成本(Mixtral、DeepSeek-V3)
推理能力强化o1/R1类"慢思考"模型,专门优化逻辑推理
Agent化从对话工具向自主任务执行演进
开源追赶闭源DeepSeek-R1、Qwen2.5等已接近GPT-4水平

七 chagpt5 ,deepseek v3.2, 豆包 属于哪一类大模型
这三个模型都属于大语言模型(LLM)的范畴,但各有细分特点:

模型公司架构类型核心定位突出特点
GPT-5OpenAIDecoder-only通用AGI助手多模态原生、推理能力、Agent执行
DeepSeek V3.2DeepSeekDecoder-only (MoE)开源高性能极致性价比、代码/数学强、低成本
豆包字节跳动Decoder-onlyC端AI助手中文优化、语音交互、多模态内容创作

详细分类

  1. GPT-5(OpenAI)

    维度说明
    类型通用大语言模型(闭源商业)
    架构Decoder-only,推测继续沿用MoE
    模态原生多模态(文本+图像+音频+视频统一)
    特色能力高级推理(o系列技术融合)、自主Agent执行、深度研究
    定位当前全球最强通用模型,追求AGI
  2. DeepSeek V3.2(深度求索)

    维度说明
    类型通用大语言模型(开源可商用
    架构Decoder-only + MoE(混合专家)
    参数规模总参数量大,但推理时只激活部分专家(节省算力)
    突出优势代码生成数学推理中文能力API成本极低
    定位"开源版GPT-4",性价比之王
  3. 豆包(字节跳动)

    维度说明
    类型通用大语言模型 + C端AI助手产品
    架构Decoder-only(基于云雀模型)
    产品形态App + 网页 + API + 嵌入抖音/飞书生态
    突出优势语音交互自然中文语境理解内容创作(文案/脚本/视频)、年轻化表达
    定位中国C端用户量最大的AI助手之一

八 chagpt5 属于LLM,为什么又是多模态呢? LLM 不是用来处理语言的?

LLM(大语言模型)的定义正在扩展——从"纯文本模型"演变为"以语言为核心接口的多模态模型"。
GPT-5这类模型虽然叫"语言模型",但实际上已经突破了纯文本的边界。
概念的演变
传统定义(早期)
LLM = Large Language Model = 纯文本大模型

    ↓
输入:文本
输出:文本
代表:GPT-3、早期BERT

当前定义(2024-2025)
LLM = 以"语言"为主要交互接口的大模型

    ↓
输入:文本 / 图像 / 音频 / 视频
处理:统一语义空间理解
输出:文本 / 图像 / 音频 / 视频
代表:GPT-4o、GPT-5、Gemini、Claude 3.5、Qwen2.5-Omni

为什么还叫"LLM"而不是"MM"?

原因解释
语言是核心接口无论输入什么模态,最终都用"语言"来推理、规划、输出
训练基础仍是语言模型核心能力建立在海量文本预训练之上
历史命名惯性从GPT-3→GPT-4V→GPT-4o一脉相承,用户认知度高
技术实现角度底层仍是Transformer架构,只是输入编码器扩展了

GPT-5的多模态是如何实现的?

┌─────────────────────────────────────────┐
│           用户输入(多模态)              │
│    文本 / 图像 / 音频 / 视频 / 文件      │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│         统一编码器(Tokenizer)          │
│  • 文本 → Token IDs                     │
│  • 图像 → Visual Patches(图像块)        │
│  • 音频 → Spectrogram Tokens            │
│  • 视频 → 时空Visual Patches            │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│      统一Transformer架构(核心LLM)       │
│      所有模态在同一个语义空间处理          │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│         输出生成(多模态)               │
│    文本 / 图像 / 音频 / 视频             │
└─────────────────────────────────────────┘

关键点:所有模态最终被编码为类似"token"的离散单元,用同一套LLM架构处理。

更准确的分类术语
为避免混淆,学术界/工业界出现了更精确的术语:

术语全称含义代表
LLMLarge Language Model纯文本或以文本为主的模型GPT-3、LLaMA 2
VLMVision-Language Model视觉-语言模型LLaVA、CogVLM
MLLMMultimodal Large Language Model多模态大语言模型GPT-4V、Qwen-VL
LMMLarge Multimodal Model大型多模态模型(更通用)GPT-4o、Gemini
Foundation Model基础模型泛指所有大规模预训练模型所有上述模型

GPT-5的准确分类:MLLM(多模态大语言模型) 或 LMM(大型多模态模型)
一句话总结

问题答案
LLM不是只处理语言吗?传统是,但现在LLM的概念已扩展,GPT-5这类模型本质是以语言为核心的多模态模型
为什么还叫GPT(Generative Pre-trained Transformer)?品牌延续性 + 技术架构未变(仍是Transformer)+ 语言仍是核心交互方式
更准确的叫法?MLLM(多模态大语言模型) 比纯 LLM 更准确
0

评论 (0)

取消