
一、按架构类型分类
| 架构类型 | 特点 | 代表模型 |
|---|---|---|
| Decoder-only(自回归) | 从左到右生成,适合文本生成 | GPT-4、Claude、LLaMA、Qwen、ChatGLM |
| Encoder-only(双向编码) | 双向理解,适合分类/理解任务 | BERT、RoBERTa、ERNIE(早期) |
| Encoder-Decoder(序列到序列) | 编码器+解码器,适合翻译/摘要 | T5、BART、GLM(清华)、UL2 |
当前趋势:Decoder-only占据主导(GPT系列成功带动),Encoder-Decoder仍有特定场景应用。
二、按模态类型分类
大语言模型(LLM)- 纯文本
类型 商业模型 开源模型 通用对话 GPT-4/4o、Claude 3.5、Gemini、Kimi、文心一言、通义千问 LLaMA 3、Qwen 2.5、Mistral、DeepSeek-V3、ChatGLM3、Yi 代码专用 GitHub Copilot、Cursor CodeLLaMA、DeepSeek-Coder、StarCoder、WizardCoder 推理专用 OpenAI o1/o3、Claude 3.5 Sonnet (Thinking) DeepSeek-R1、Qwen-QwQ、Marco-o1 多模态大模型(MLLM)- 文本+图像/视频/音频
模态组合 代表模型 文本+图像 GPT-4V、Claude 3、Gemini、Qwen-VL、LLaVA、CogVLM、InternVL 文本+视频 Sora、Runway Gen-3、可灵、Pika、VideoPoet 文本+音频 GPT-4o(原生多模态)、Qwen-Audio、SpeechGPT 全模态统一 GPT-4o、Gemini 1.5 Pro、Qwen2.5-Omni 视觉大模型
类型 代表模型 图像理解/分割 SAM 2(Meta)、CLIP(OpenAI)、EVA、InternViT 图像生成 DALL-E 3、Midjourney、Stable Diffusion 3、FLUX、Imagen 视频生成 Sora、可灵、Runway、Pika、CogVideo 语音大模型
类型 代表模型 语音识别 Whisper(OpenAI)、FunASR(阿里) 语音合成 VALL-E、Voicebox、CosyVoice 语音对话 GPT-4o Voice、豆包语音、MiniMax语音大模型
三、按应用领域分类
| 领域 | 代表模型/系统 |
|---|---|
| 科学计算 | AlphaFold 3(蛋白质结构)、GraphCast(天气预报)、DeepMind材料发现模型 |
| 数学推理 | OpenAI o1、DeepSeek-R1、Qwen2.5-Math、NuminaMath |
| 法律 | 通义法睿、ChatLaw、PowerLawGLM |
| 医疗 | Med-PaLM 2、HuatuoGPT、扁鹊、BioGPT |
| 金融 | BloombergGPT、FinGPT、度小满轩辕 |
| 教育 | Khanmigo(可汗学院)、松鼠AI大模型 |
| 编程/软件 | GitHub Copilot、Devin、Cursor、通义灵码 |
四、按训练方法/特性分类
| 类型 | 说明 | 代表 |
|---|---|---|
| 预训练大模型 | 基础模型,需微调 | GPT-3、LLaMA 2、BERT |
| 指令微调模型(IFT) | 对齐人类指令 | ChatGPT、Alpaca、Vicuna |
| RLHF对齐模型 | 基于人类反馈强化学习 | GPT-4、Claude、InstructGPT |
| MoE架构模型 | 混合专家,稀疏激活 | GPT-4(推测)、Mixtral 8x7B/8x22B、DeepSeek-V3、Qwen1.5-MoE |
| RAG增强模型 | 结合外部知识检索 | 多数现代模型都支持 |
| Agent模型 | 具备工具调用/自主规划 | AutoGPT、GPT-4 with Tools、Claude with Computer Use、智谱AutoGLM |
五、开源 vs 商业 一览
主流开源大模型(可免费使用/部署)
| 机构 | 模型系列 | 特点 |
|---|---|---|
| Meta | LLaMA 3(8B/70B/405B) | 开源可商用,社区生态最大 |
| 阿里 | Qwen 2.5(0.5B-72B)、Qwen-VL、Qwen-Audio | 中文最强开源,多模态全面 |
| DeepSeek | DeepSeek-V3、DeepSeek-R1 | 性能接近GPT-4,成本极低 |
| Mistral | Mistral 7B、Mixtral 8x7B/8x22B、Mistral Large | 欧洲最强,MoE架构 |
| 智谱AI | ChatGLM3/4、GLM-4-9B | 中文友好,学术开源 |
| 零一万物 | Yi-1.5(6B/9B/34B) | 李开复团队,长文本优秀 |
| 百川智能 | Baichuan 2 | 中文开源,商用友好 |
| Stability AI | Stable LM、Stable Diffusion | 图像生成领域开源标杆 |
| Hugging Face | BLOOM、Zephyr、StarCoder | 社区驱动,多语言支持 |
| Gemma(2B/7B/9B/27B) | 轻量级开源,可端侧部署 |
主流商业大模型(API/闭源)
| 公司 | 模型 | 特点 |
|---|---|---|
| OpenAI | GPT-4o、GPT-4 Turbo、o1/o3 | 全球最强通用模型 |
| Anthropic | Claude 3.5 Sonnet/Haiku/Opus | 长文本、安全性突出 |
| Gemini 1.5 Pro/Flash/Ultra | 原生多模态,长上下文(200万token) | |
| 月之暗面 | Kimi K1.5 | 中文长文本(200万字)领先 |
| 百度 | 文心一言 4.0、文心大模型 | 中文知识增强 |
| 阿里 | 通义千问 Max、Qwen-Turbo | 开源+商业双轨 |
| 字节跳动 | 豆包大模型、云雀 | 多模态,C端产品强 |
| 腾讯 | 混元大模型 | 中文语境优化 |
| MiniMax | abab 6.5、海螺AI | 语音多模态 |
| 商汤 | 日日新 SenseNova | 视觉多模态强 |
六、技术趋势总结
| 趋势 | 说明 |
|---|---|
| 多模态统一 | 从文本→图文→音视频→全模态(GPT-4o方向) |
| 端侧小模型 | 手机/PC本地运行(Gemma、Phi-3、Llama 3.2 1B/3B) |
| MoE架构普及 | 用稀疏激活降低推理成本(Mixtral、DeepSeek-V3) |
| 推理能力强化 | o1/R1类"慢思考"模型,专门优化逻辑推理 |
| Agent化 | 从对话工具向自主任务执行演进 |
| 开源追赶闭源 | DeepSeek-R1、Qwen2.5等已接近GPT-4水平 |
七 chagpt5 ,deepseek v3.2, 豆包 属于哪一类大模型
这三个模型都属于大语言模型(LLM)的范畴,但各有细分特点:
| 模型 | 公司 | 架构类型 | 核心定位 | 突出特点 |
|---|---|---|---|---|
| GPT-5 | OpenAI | Decoder-only | 通用AGI助手 | 多模态原生、推理能力、Agent执行 |
| DeepSeek V3.2 | DeepSeek | Decoder-only (MoE) | 开源高性能 | 极致性价比、代码/数学强、低成本 |
| 豆包 | 字节跳动 | Decoder-only | C端AI助手 | 中文优化、语音交互、多模态内容创作 |
详细分类
GPT-5(OpenAI)
维度 说明 类型 通用大语言模型(闭源商业) 架构 Decoder-only,推测继续沿用MoE 模态 原生多模态(文本+图像+音频+视频统一) 特色能力 高级推理(o系列技术融合)、自主Agent执行、深度研究 定位 当前全球最强通用模型,追求AGI DeepSeek V3.2(深度求索)
维度 说明 类型 通用大语言模型(开源可商用) 架构 Decoder-only + MoE(混合专家) 参数规模 总参数量大,但推理时只激活部分专家(节省算力) 突出优势 代码生成、数学推理、中文能力、API成本极低 定位 "开源版GPT-4",性价比之王 豆包(字节跳动)
维度 说明 类型 通用大语言模型 + C端AI助手产品 架构 Decoder-only(基于云雀模型) 产品形态 App + 网页 + API + 嵌入抖音/飞书生态 突出优势 语音交互自然、中文语境理解、内容创作(文案/脚本/视频)、年轻化表达 定位 中国C端用户量最大的AI助手之一
八 chagpt5 属于LLM,为什么又是多模态呢? LLM 不是用来处理语言的?
LLM(大语言模型)的定义正在扩展——从"纯文本模型"演变为"以语言为核心接口的多模态模型"。
GPT-5这类模型虽然叫"语言模型",但实际上已经突破了纯文本的边界。
概念的演变
传统定义(早期)
LLM = Large Language Model = 纯文本大模型
↓
输入:文本
输出:文本
代表:GPT-3、早期BERT
当前定义(2024-2025)
LLM = 以"语言"为主要交互接口的大模型
↓
输入:文本 / 图像 / 音频 / 视频
处理:统一语义空间理解
输出:文本 / 图像 / 音频 / 视频
代表:GPT-4o、GPT-5、Gemini、Claude 3.5、Qwen2.5-Omni
为什么还叫"LLM"而不是"MM"?
| 原因 | 解释 |
|---|---|
| 语言是核心接口 | 无论输入什么模态,最终都用"语言"来推理、规划、输出 |
| 训练基础仍是语言 | 模型核心能力建立在海量文本预训练之上 |
| 历史命名惯性 | 从GPT-3→GPT-4V→GPT-4o一脉相承,用户认知度高 |
| 技术实现角度 | 底层仍是Transformer架构,只是输入编码器扩展了 |
GPT-5的多模态是如何实现的?
┌─────────────────────────────────────────┐
│ 用户输入(多模态) │
│ 文本 / 图像 / 音频 / 视频 / 文件 │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 统一编码器(Tokenizer) │
│ • 文本 → Token IDs │
│ • 图像 → Visual Patches(图像块) │
│ • 音频 → Spectrogram Tokens │
│ • 视频 → 时空Visual Patches │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 统一Transformer架构(核心LLM) │
│ 所有模态在同一个语义空间处理 │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 输出生成(多模态) │
│ 文本 / 图像 / 音频 / 视频 │
└─────────────────────────────────────────┘关键点:所有模态最终被编码为类似"token"的离散单元,用同一套LLM架构处理。

更准确的分类术语
为避免混淆,学术界/工业界出现了更精确的术语:
| 术语 | 全称 | 含义 | 代表 |
|---|---|---|---|
| LLM | Large Language Model | 纯文本或以文本为主的模型 | GPT-3、LLaMA 2 |
| VLM | Vision-Language Model | 视觉-语言模型 | LLaVA、CogVLM |
| MLLM | Multimodal Large Language Model | 多模态大语言模型 | GPT-4V、Qwen-VL |
| LMM | Large Multimodal Model | 大型多模态模型(更通用) | GPT-4o、Gemini |
| Foundation Model | 基础模型 | 泛指所有大规模预训练模型 | 所有上述模型 |
GPT-5的准确分类:MLLM(多模态大语言模型) 或 LMM(大型多模态模型)
一句话总结
| 问题 | 答案 |
|---|---|
| LLM不是只处理语言吗? | 传统是,但现在LLM的概念已扩展,GPT-5这类模型本质是以语言为核心的多模态模型 |
| 为什么还叫GPT(Generative Pre-trained Transformer)? | 品牌延续性 + 技术架构未变(仍是Transformer)+ 语言仍是核心交互方式 |
| 更准确的叫法? | MLLM(多模态大语言模型) 比纯 LLM 更准确 |
评论 (0)