AI专题六：主流的大模型分类

一、按架构类型分类

架构类型	特点	代表模型
Decoder-only（自回归）	从左到右生成，适合文本生成	GPT-4、Claude、LLaMA、Qwen、ChatGLM
Encoder-only（双向编码）	双向理解，适合分类/理解任务	BERT、RoBERTa、ERNIE（早期）
Encoder-Decoder（序列到序列）	编码器+解码器，适合翻译/摘要	T5、BART、GLM（清华）、UL2

当前趋势：Decoder-only占据主导（GPT系列成功带动），Encoder-Decoder仍有特定场景应用。

二、按模态类型分类

大语言模型（LLM）- 纯文本

类型	商业模型	开源模型
通用对话	GPT-4/4o、Claude 3.5、Gemini、Kimi、文心一言、通义千问	LLaMA 3、Qwen 2.5、Mistral、DeepSeek-V3、ChatGLM3、Yi
代码专用	GitHub Copilot、Cursor	CodeLLaMA、DeepSeek-Coder、StarCoder、WizardCoder
推理专用	OpenAI o1/o3、Claude 3.5 Sonnet (Thinking)	DeepSeek-R1、Qwen-QwQ、Marco-o1

多模态大模型（MLLM）- 文本+图像/视频/音频

模态组合	代表模型
文本+图像	GPT-4V、Claude 3、Gemini、Qwen-VL、LLaVA、CogVLM、InternVL
文本+视频	Sora、Runway Gen-3、可灵、Pika、VideoPoet
文本+音频	GPT-4o（原生多模态）、Qwen-Audio、SpeechGPT
全模态统一	GPT-4o、Gemini 1.5 Pro、Qwen2.5-Omni

视觉大模型

类型	代表模型
图像理解/分割	SAM 2（Meta）、CLIP（OpenAI）、EVA、InternViT
图像生成	DALL-E 3、Midjourney、Stable Diffusion 3、FLUX、Imagen
视频生成	Sora、可灵、Runway、Pika、CogVideo

语音大模型
类型代表模型
语音识别 Whisper（OpenAI）、FunASR（阿里）
语音合成 VALL-E、Voicebox、CosyVoice
语音对话 GPT-4o Voice、豆包语音、MiniMax语音大模型

类型	代表模型
语音识别	Whisper（OpenAI）、FunASR（阿里）
语音合成	VALL-E、Voicebox、CosyVoice
语音对话	GPT-4o Voice、豆包语音、MiniMax语音大模型

三、按应用领域分类

领域	代表模型/系统
科学计算	AlphaFold 3（蛋白质结构）、GraphCast（天气预报）、DeepMind材料发现模型
数学推理	OpenAI o1、DeepSeek-R1、Qwen2.5-Math、NuminaMath
法律	通义法睿、ChatLaw、PowerLawGLM
医疗	Med-PaLM 2、HuatuoGPT、扁鹊、BioGPT
金融	BloombergGPT、FinGPT、度小满轩辕
教育	Khanmigo（可汗学院）、松鼠AI大模型
编程/软件	GitHub Copilot、Devin、Cursor、通义灵码

四、按训练方法/特性分类

类型	说明	代表
预训练大模型	基础模型，需微调	GPT-3、LLaMA 2、BERT
指令微调模型（IFT）	对齐人类指令	ChatGPT、Alpaca、Vicuna
RLHF对齐模型	基于人类反馈强化学习	GPT-4、Claude、InstructGPT
MoE架构模型	混合专家，稀疏激活	GPT-4（推测）、Mixtral 8x7B/8x22B、DeepSeek-V3、Qwen1.5-MoE
RAG增强模型	结合外部知识检索	多数现代模型都支持
Agent模型	具备工具调用/自主规划	AutoGPT、GPT-4 with Tools、Claude with Computer Use、智谱AutoGLM

五、开源 vs 商业一览
主流开源大模型（可免费使用/部署）

机构	模型系列	特点
Meta	LLaMA 3（8B/70B/405B）	开源可商用，社区生态最大
阿里	Qwen 2.5（0.5B-72B）、Qwen-VL、Qwen-Audio	中文最强开源，多模态全面
DeepSeek	DeepSeek-V3、DeepSeek-R1	性能接近GPT-4，成本极低
Mistral	Mistral 7B、Mixtral 8x7B/8x22B、Mistral Large	欧洲最强，MoE架构
智谱AI	ChatGLM3/4、GLM-4-9B	中文友好，学术开源
零一万物	Yi-1.5（6B/9B/34B）	李开复团队，长文本优秀
百川智能	Baichuan 2	中文开源，商用友好
Stability AI	Stable LM、Stable Diffusion	图像生成领域开源标杆
Hugging Face	BLOOM、Zephyr、StarCoder	社区驱动，多语言支持
Google	Gemma（2B/7B/9B/27B）	轻量级开源，可端侧部署

主流商业大模型（API/闭源）

公司	模型	特点
OpenAI	GPT-4o、GPT-4 Turbo、o1/o3	全球最强通用模型
Anthropic	Claude 3.5 Sonnet/Haiku/Opus	长文本、安全性突出
Google	Gemini 1.5 Pro/Flash/Ultra	原生多模态，长上下文（200万token）
月之暗面	Kimi K1.5	中文长文本（200万字）领先
百度	文心一言 4.0、文心大模型	中文知识增强
阿里	通义千问 Max、Qwen-Turbo	开源+商业双轨
字节跳动	豆包大模型、云雀	多模态，C端产品强
腾讯	混元大模型	中文语境优化
MiniMax	abab 6.5、海螺AI	语音多模态
商汤	日日新 SenseNova	视觉多模态强

六、技术趋势总结

趋势	说明
多模态统一	从文本→图文→音视频→全模态（GPT-4o方向）
端侧小模型	手机/PC本地运行（Gemma、Phi-3、Llama 3.2 1B/3B）
MoE架构普及	用稀疏激活降低推理成本（Mixtral、DeepSeek-V3）
推理能力强化	o1/R1类"慢思考"模型，专门优化逻辑推理
Agent化	从对话工具向自主任务执行演进
开源追赶闭源	DeepSeek-R1、Qwen2.5等已接近GPT-4水平

七 chagpt5 ，deepseek v3.2，豆包属于哪一类大模型
这三个模型都属于大语言模型（LLM）的范畴，但各有细分特点：

模型	公司	架构类型	核心定位	突出特点
GPT-5	OpenAI	Decoder-only	通用AGI助手	多模态原生、推理能力、Agent执行
DeepSeek V3.2	DeepSeek	Decoder-only (MoE)	开源高性能	极致性价比、代码/数学强、低成本
豆包	字节跳动	Decoder-only	C端AI助手	中文优化、语音交互、多模态内容创作

详细分类

GPT-5（OpenAI）

维度	说明
类型	通用大语言模型（闭源商业）
架构	Decoder-only，推测继续沿用MoE
模态	原生多模态（文本+图像+音频+视频统一）
特色能力	高级推理（o系列技术融合）、自主Agent执行、深度研究
定位	当前全球最强通用模型，追求AGI

DeepSeek V3.2（深度求索）

维度	说明
类型	通用大语言模型（开源可商用）
架构	Decoder-only + MoE（混合专家）
参数规模	总参数量大，但推理时只激活部分专家（节省算力）
突出优势	代码生成、数学推理、中文能力、API成本极低
定位	"开源版GPT-4"，性价比之王

豆包（字节跳动）

维度	说明
类型	通用大语言模型 + C端AI助手产品
架构	Decoder-only（基于云雀模型）
产品形态	App + 网页 + API + 嵌入抖音/飞书生态
突出优势	语音交互自然、中文语境理解、内容创作（文案/脚本/视频）、年轻化表达
定位	中国C端用户量最大的AI助手之一

八 chagpt5 属于LLM，为什么又是多模态呢？ LLM 不是用来处理语言的？

LLM（大语言模型）的定义正在扩展——从"纯文本模型"演变为"以语言为核心接口的多模态模型"。
GPT-5这类模型虽然叫"语言模型"，但实际上已经突破了纯文本的边界。
概念的演变
传统定义（早期）
LLM = Large Language Model = 纯文本大模型

    ↓
输入：文本
输出：文本
代表：GPT-3、早期BERT

当前定义（2024-2025）
LLM = 以"语言"为主要交互接口的大模型

    ↓
输入：文本 / 图像 / 音频 / 视频
处理：统一语义空间理解
输出：文本 / 图像 / 音频 / 视频
代表：GPT-4o、GPT-5、Gemini、Claude 3.5、Qwen2.5-Omni

为什么还叫"LLM"而不是"MM"？

原因	解释
语言是核心接口	无论输入什么模态，最终都用"语言"来推理、规划、输出
训练基础仍是语言	模型核心能力建立在海量文本预训练之上
历史命名惯性	从GPT-3→GPT-4V→GPT-4o一脉相承，用户认知度高
技术实现角度	底层仍是Transformer架构，只是输入编码器扩展了

GPT-5的多模态是如何实现的？

┌─────────────────────────────────────────┐
│           用户输入（多模态）              │
│    文本 / 图像 / 音频 / 视频 / 文件      │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│         统一编码器（Tokenizer）          │
│  • 文本 → Token IDs                     │
│  • 图像 → Visual Patches（图像块）        │
│  • 音频 → Spectrogram Tokens            │
│  • 视频 → 时空Visual Patches            │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│      统一Transformer架构（核心LLM）       │
│      所有模态在同一个语义空间处理          │
└─────────────────────────────────────────┘
                   ↓
┌─────────────────────────────────────────┐
│         输出生成（多模态）               │
│    文本 / 图像 / 音频 / 视频             │
└─────────────────────────────────────────┘

关键点：所有模态最终被编码为类似"token"的离散单元，用同一套LLM架构处理。

更准确的分类术语
为避免混淆，学术界/工业界出现了更精确的术语：

术语	全称	含义	代表
LLM	Large Language Model	纯文本或以文本为主的模型	GPT-3、LLaMA 2
VLM	Vision-Language Model	视觉-语言模型	LLaVA、CogVLM
MLLM	Multimodal Large Language Model	多模态大语言模型	GPT-4V、Qwen-VL
LMM	Large Multimodal Model	大型多模态模型（更通用）	GPT-4o、Gemini
Foundation Model	基础模型	泛指所有大规模预训练模型	所有上述模型

GPT-5的准确分类：MLLM（多模态大语言模型）或 LMM（大型多模态模型）
一句话总结

问题	答案
LLM不是只处理语言吗？	传统是，但现在LLM的概念已扩展，GPT-5这类模型本质是以语言为核心的多模态模型
为什么还叫GPT（Generative Pre-trained Transformer）？	品牌延续性 + 技术架构未变（仍是Transformer）+ 语言仍是核心交互方式
更准确的叫法？	MLLM（多模态大语言模型）比纯 LLM 更准确

AI专题三十八：机器学习中常用的几种距离度量方法

AI专题三十七：神经网络学习规则

AI专题三十六：激活函数分类和作用

AI专题三十五：神经网络的基本原理

评论 (0)