CPU 的工作原理是什么？

想了解CPU的工作原理莫过于从头开始用最基础的元素打造一个简单CPU。

接下来我会从最简单的晶体管开始一步步讲解CPU是如何构造出来的，明白了这个过程理解 CPU 的工作原理不在话下，在此之后我会从最基础的二进制机器指令一步步讲解高级语言的基本原理，通读本文后你将彻底明白CPU与高级语言的工作原理。

以下内容出自我的两篇文章《你管这破玩意叫CPU？》《你管这破玩意叫编程语言？》。

次回家开灯时你有没有想过，用你按的简单开关实际上能打造出复杂的 CPU 来，只不过需要的数量会比较多，也就几十亿个吧。

伟大的发明
过去200年人类最重要的发明是什么？蒸汽机？电灯？火箭？这些可能都不是，最重要的也许是这个小东西：

这个小东西就叫晶体管，你可能会问，晶体管有什么用呢？

实际上晶体管的功能简单到不能再简单，给一端通上电，那么电流可以从另外两端通过，否则不能通过，其本质就是一个开关。

就是这个小东西的发明让三个人获得了诺贝尔物理学奖，可见其举足轻重的地位。无论程序员编写的程序多么复杂，软件承载的功能最终都是通过这个小东西简单的开闭完成的，除了神奇二字，我想不出其它词来。

AND、OR、NOT
现在有了晶体管，也就是开关，在此基础之上就可以搭积木了，你随手搭建出来这样三种组合：

两个开关只有同时打开电流才会通过，灯才会亮
两个开关中只要有一个打开电流就能通过，灯就会亮
当开关关闭时电流通过灯会亮，打开开关灯反而电流不能通过灯会灭
天赋异禀的你搭建的上述组合分别就是：与门，AND Gate、或门，OR gate、非门，NOT gate，用符号表示就是这样：

道生一、一生二、二生三、三生万物
最神奇的是，你随手搭建的三种电路竟然有一种很amazing的特性，那就是：任何一个逻辑函数最终都可以通过AND、OR以及NOT表达出来，这就是所谓的逻辑完备性，就是这么神奇。

也就是说给定足够的AND、OR以及NOT门，就可以实现任何一个逻辑函数，除此之外我们不需要任何其它类型的逻辑门电路，这时我们认为{AND、OR、NOT}就是逻辑完备的。

这一结论的得出吹响了计算机革命的号角，这个结论告诉我们计算机最终可以通过简单的{AND、OR、NOT}门构造出来，就好比基因。
计算能力是怎么来的
现在能生成万物的基础元素与或非门出现了，接下来我们着手设计CPU 最重要的能力：计算，以加法为例。由于CPU只认知 0 和 1，也就是二进制，那么二进制的加法有哪些组合呢：

0 + 0，结果为0，进位为0
0 + 1，结果为1，进位为0
1 + 0，结果为1，进位为0
1 + 1，结果为0，进位为1，二进制嘛！
注意进位一列，只有当两路输入的值都是 1 时，进位才是 1 ，看一下你设计的三种组合电路，这就是与门啊，有没有！再看下结果一列，当两路输入的值不同时结果为1，输入结果相同时结果为0，这就是异或啊，有没有！

我们说过与或非门是逻辑完备可以生万物，异或逻辑当然不在话下，用一个与门和一个异或门就可以实现二进制加法：

上述电路就是一个简单的加法器，就问你神奇不神奇，加法可以用与或非门实现，其它的也一样能实现，逻辑完备嘛。

除了加法，我们也可以根据需要将不同的算数运算设计出来，负责计算的电路有一个统称，这就是所谓的arithmetic/logic unit，ALU，CPU 中专门负责运算的模块，本质上和上面的简单电路没什么区别，就是更加复杂而已。

现在，通过与或非门的组合我们获得了计算能力，计算能力就是这么来的。但，只有计算能力是不够的，电路需要能记得住信息。

神奇的记忆能力
到目前为止，你设计的组合电路比如加法器天生是没有办法存储信息的，它们只是简单的根据输入得出输出，但输入输出总的有个地方能够保存起来，这就是需要电路能保存信息。

电路怎么能保存信息呢？你不知道该怎么设计，这个问题解决不了你寝食难安，吃饭时在思考、走路时在思考，蹲坑时在思考，直到有一天你在梦中遇一位英国物理学家，他给了你这样一个简单但极其神奇的电路：

这是两个NAND门的组合，不要紧张，NAND也是有你设计的与或非门组合而成的，所谓NAND门就是与非门，先与然后取非，比如给定输入1和0，那么与运算后为0，非运算后为1，这就是与非门，这些不重要。

比较独特的是该电路的组合方式，一个NAND门的输出是两一个NAND门的输入，该电路的组合方式会自带一种很有趣的特性，只要给S和R段输入1，那么这个电路只会有两种状态:

要么a端为1，此时B=0、A=1、b=0；
要么a端为0，此时B=1、A=0、b=1;
不会再有其他可能了，我们把a端的值作为电路的输出。

此后，你把S端置为0的话(R保持为1)，那么电路的输出也就是a端永远为1，这时就可以说我们把1存到电路中了；而如果你把R段置为0的话(S保持为1)，那么此时电路的输出也就是a端永远为0，此时我们可以说把0存到电路中了。

就问你神奇不神奇，电路竟然具备存储信息的能力了。现在为保存信息你需要同时设置S端和R端，但你的输入是有一个(存储一个bit位嘛)，为此你对电路进行了简单的改造：

这样，当D为0时，整个电路保存的就是0，否则就是1。

寄存器与内存的诞生
现在你的电路能存储一个比特位了，想存储多个比特位还不简单，复制粘贴就可以了：

我们管这个组合电路就叫寄存器，你没有看错，我们常说的寄存器就是这个东西。

你不满足，还要继续搭建更加复杂的电路以存储更多信息，同时提供寻址功能，就这样内存也诞生了。

寄存器及内存都离不开上一节那个简单电路，只要通电，这个电路中就保存信息，但是断电后很显然保存的信息就丢掉了，现在你应该明白为什么内存在断电后就不能保存数据了吧。

硬件的基本功
让我们来思考一个问题，CPU怎么能知道自己要去对两个数进行加法计算，以及哪两个数进行加法计算呢？
很显然，你得告诉CPU，该怎么告诉呢？还记得上一节中给厨师的菜谱吗？没错，CPU也需要一张菜谱告诉自己该接下来该干啥，在这里菜谱就是机器指令，指令通过我们上述实现的组合电路来执行。

接下来我们面临另一个问题，那就是这样的指令应该会很多吧，废话，还是以加法指令为例，你可以让CPU计算1+1，也可以计算1+2等等，实际上单单加法指令就可以有无数种组合，显然CPU不可能去实现所有的指令。

实际上CPU只需要提供加法操作，你提供操作数就可以了，CPU 说：“我可以打人”，你告诉CPU该打谁、CPU 说：“我可以唱歌”，你告诉CPU唱什么，CPU 说我可以做饭，你告诉CPU该做什么饭，CPU 说：“我可以炒股”，你告诉CPU快滚一边去吧韭菜。因此我们可以看到CPU只提供机制或者说功能(打人、唱歌、炒菜，加法、减法、跳转)，我们提供策略(打谁、歌名、菜名，操作数，跳转地址)。

CPU 表达机制就通过指令集来实现的。
指令集
指令集告诉我们 CPU 可以执行什么指令，每种指令需要提供什么样的操作数。不同类型的CPU会有不同的指令集。指令集中的指令其实都非常简单，画风大体上是这样的：

从内存中读一个数，地址是abc
对两个数加和
检查一个数是不是大于6
把这数存储到内存，地址是abc
等等
看上去很像碎碎念有没有，这就是机器指令，我们用高级语言编写的程序，比如对一个数组进行排序，最终都会等价转换为上面的碎碎念指令，然后 CPU 一条一条的去执行，很神奇有没有。接下来我们看一条可能的机器指令：

这条指令占据16比特，其中前四个比特告诉CPU这是加法指令，这意味着该CPU的指令集中可以包含2^4也就是16个机器指令，这四个比特位告诉CPU该做什么，剩下的bit告诉CPU该怎么做，也就是把寄存器R6和寄存器R2中的值相加然后写到寄存器R6中。

可以看到，机器指令是非常繁琐的，现代程序员都使用高级语言来编写程序，关于高级程序语言以及机器指令的话题请参见《你管这破玩意叫编程语言？》。
大功告成
现在我们有了可以完成各种计算的ALU、可以存储信息的寄存器以及控制它们协同工作的时钟信号，这些统称 Central Processing Unit，简称就是 CPU。

接下来我们看一下CPU 与高级语言。

程序员按照 CPU 的旨意直接用0和1编写指令，你没有看错，这破玩意就是代码了，就是这么原生态，然后放到打孔纸带上输入给CPU，CPU 开始工作，这时的程序可真的是看得见摸得着，就是有点浪费纸。

这时程序员必须站在 CPU 的角度来写代码，画风是这样的：

1101101010011010
1001001100101001
1100100011011110
1011101101010010

终于有一天程序员受够了说鸟语，好歹也是灵长类，叽叽喳喳说鸟语太没面子，你被委以重任：让程序员说人话。你没有苦其心志劳其筋骨，而是仔细研究了一下 CPU，发现 CPU 执行的指令集来来回回就那么几个指令，比如加法指令、跳转指令等等，因此你把机器指令和对应的具体操作做了一个简单的映射，把机器指令映射到人类能看懂的单词，这样上面的01串就变成了：

sub $8, %rsp
mov $.LC0, %edi
call puts
mov $0, %eax
这样，程序员不必生硬的记住1011.....，而是记住人类可以认识的ADD SUB MUL DIV等这样的单词即可。

汇编语言就这样诞生了，编程语言中首次出现了人类可以认识的东西
细节 VS 抽象
尽管汇编语言已经有人类可以认识的单词，但汇编语言和机器语言一样都属于低级语言。所谓低级语言是说你需要关心所有细节。关心什么细节呢？我们说过，CPU 是非常原始的东西，只知道把数据从一个地方搬到另一个地方，简单的操作一下再从一个地方搬到另一地方。因此，如果你想用低级语言来编程的话，你需要使用多个“把数据从一个地方搬到另一个地方，简单的操作一下再从一个地方搬到另一地方”这样的简单指令来实现诸如排序这样复杂的问题。有的同学可能对此感触不深，这就好比，本来你想表达“去给我端杯水过来”：
如果你用汇编这种低级语言就得这样实现：

我想你已经 Get 到了。

弥补差异
CPU 实在太简单了，简单到不能了理解任何稍微抽象一点诸如“给我端杯水”这样的东西，但人类天生习惯抽象化的表达，人类和机器的差距有办法来弥补吗？换句话说就是有没有一种办法可以自动把人类抽象的表达转为 CPU 可以理解的具体实现，这显然可以极大增强程序员的生产力，现在，这个问题需要你来解决。

电光火石之间灵光乍现，你发现了满满的套路，或者说模式。大部分情况下 CPU 执行的指令平铺直叙的，就像这样：

这些都是告诉 CPU 完成某个特定动作，你给这些平铺直叙的指令起了个名字，姑且就叫陈述句吧，statement。

除此之外，你还发现了这样的套路，那就是需要根据某种特定状态决定走哪段指令，这个套路在人看来就是“如果。。。就。。。否则。。就。。。”：

if *
blablabla
else *
blablabla
在某些情况下还需要不断重复一些指令，这个套路看起来就是原地打转：

while *
blablabla
最后就是这里有很多看起来差不多的指令，就像这里：

这些指令是重复的，只是个别细节有所差异，把这些差异提取出来，剩下的指令打包到一起，用一个代号来指定这些指令就好了，这要有个名字，就叫函数吧：

func abc:
blablabla
现在你发现了所有套路：

// 条件转移
if *

  blablabla

else *

  blablabla

// 循环
while *

  blablabla

// 函数
func abc:

  blablabla

这些相比汇编语言已经有了质的飞跃，因为这已经和人类的语言非常接近了。接下来你发现自己面临两个问题：

这里的blablabla该是什么呢？
该怎样把上面的人类可以认识的字符串转换为 CPU 可以认识的机器指令

递归：代码的本质
不就是嵌套嘛，一层套一层嘛，递归天生就是来表达这玩意的 (提示：这里的表达并不完备，真实的编程语言不会这么简单，这里仅仅用作示例)：

if : if bool statement else statements
for: while bool statements
statement: if | for | statement

让计算机理解递归
现在还差一个问题，怎样才能把这语言最终转化为 CPU 可以认识的机器指令呢？人类可以按照语法写出代码，这些代码其实就是一串字符，怎么让计算机也能认识用递归语法表达的一串字符呢？这是一项事关人类命运的事情，你不禁感到责任重大，但这最后一步又看似困难重重，你不禁仰天长叹，计算机可太难了。此时你的初中老师过来拍了拍你的肩膀，递给了你一本初中植物学课本，你恼羞成怒，给我这破玩意干什么，我现在想的问题这么高深，岂是一本破初中教科书能解决的了的，抓过来一把扔在了地上。此时又一阵妖风挂过，书被翻到了介绍树的一章，你望着这一页不禁发起呆来：
我们可以把根据递归语法写出来的的代码用树来表示啊！

优秀的翻译官
计算机处理编程语言时可以按照递归定义把代码用树的形式组织起来，由于这棵树是按照语法生成的，姑且就叫语法树吧。现在代码被表示成了树的形式，你仔细观察后发现，其实叶子节点的表达是非常简单的，可以很简单的翻译成对应的机器指令，只要叶子节点翻译成了机器指令，你就可以把此结果应用到叶子节点的父节点，父节点又可以把翻译结果引用到父节点的父节点，一层层向上传递，最终整颗树都可以翻译成具体的机器指令。

完成这个工作的程序也要有个名字，根据“弄不懂原则”(该原则的解释见下文 :)

总结
本文我们从最基本的晶体管一路讲解到CPU的工作原理，再从最低级的二进制机器指令到高级语言，相信如果你能读到这里定能有所收获。

最后，有同学问有没有书单，我也仔细回想自己认真读过的计算机数据，在这里也给出自认为很经典的几本，书单这东西贵精不贵多，我在这里精心挑选了10本，不要贪心，如果你真能把这里推荐的 10 本书读通，可以说你已经能超越 90% 的程序员了。

计算机体系架构——一文读懂Cache（一）

一个简单的8位处理器完整设计过程及verilog代码

评论 (0)