【译文】原文地址
本文基于Go 1.13版本
Goroutine十分轻量,只需要2kg的内存堆栈就可以运行。而且goroutine的切换涉及到的操作也很少,因此运行成本也很低。在深入goroutine切换前,让我们回顾下从高层次上切换是如何工作的。
在继续本文之前,我强烈建议阅读文章Go:goroutine, OS thread and CPU management来理解本文中的概念。
Cases
Go基于两种中断会将goroutine调度到操作系统线程上去:
- 当一个goroutine阻塞:如遇到系统调用、互斥锁或channel。阻塞的goroutine会进入睡眠或者进入调度队列,允许Go调度或运行其他等待中的goroutine。
- 在函数调用期间,如果goroutine必须增加其堆栈。这个中断允许Go调度其他的goroutine避免正在运行的goroutine占用CPU。
在这两种情况下,运行调度程序的g0将用另一个准备运行的goroutine替换当前的goroutine。然后,被选中的goroutine取代g0并在线程中运行。
更多关于g0的内容,可以阅读Go: g0特殊的goroutine。
切换一个正在运行的goroutine包含两个切换操作:
-
正在运行的g到g0
-
g0切换到下一个将要运行的g
在Go当中,goroutine的切换是非常轻量的。为了保存状态,只需做两件事:
- goroutine在被放弃调度前,停止在当前运行所在行。当前要运行的指令保存在程序计数器当中。goroutine稍后将在同一点恢复。
- goroutine的堆栈,以便再次执行时,恢复局部变量。
让我看看实际时是如何工作的。
程序计数器
为了案例演示,我将使用channel来实现goroutine间的通信,一个goroutine产生数据其他消费数据:
package main
import "sync"
func main() {
var wg sync.WaitGroup
c := make(chan int, 10)
wg.Add(1)
go func() {
for i:=0;i<100;i++{
c <- i
}
close(c)
wg.Done()
}()
for i:=0;i<3;i++{
wg.Add(1)
go func() {
for v := range c{
if v % 2 ==0{
println(v)
}
}
wg.Done()
}()
}
wg.Wait()
}
消费者将打印从0-99的偶数。我们将重点讨论第一个goroutine-生产者:向channel缓冲中添加数据。当channel缓冲区满,再发送数据就会阻塞。此时,Go必须切换到g0然后调度其他goroutine。
如前所述,Go首先需要保存当前指令,以便当恢复goroutine时执行同一指令。程序计数器保存在goroutine的内部结构中。以下是上面的代码的一个例子:
指令和它们的地址可以通过go工具objdump找到。以下是生产者指令:
goroutine在执行一条条指令,遇到channel缓存填满继续执行函数runtime.chansend1时阻塞。Go保存当前程序计数器到当前goroutine的内部字段中。在以上例子中,Go保存程序计数器的地址是:0x4268d0,它位于运行时和runtime.chansend1中:
然后,当g0唤醒goroutine时,它将继续执行相同的指令,循环这些值并发送到channel。下面讨论goroutine切换时栈的管理。
Stack
在被阻塞之前,正在运行的goroutine有它原有堆栈,这个栈包含临时变量如i:
然后,当它阻塞在channel的发送时,该goroutine将随着它的堆栈切换到包含一个更大堆栈的g0:
切换之前,堆栈将被保护,以便goroutine再次运行时能恢复堆栈:
我们现在对goroutine的切换包含不同操作有了一个完整的认识。下面看看切换是如何影响性能的。
我们应该注意到,一些架构例如arm,需要多保存一个寄存器,LR链接器。
Operations
为了衡量切换所需时间,我们将使用前面看到的程序为例。然而,这个例子并不能完美的展示性能损耗视图,因为它依赖寻找下一个需要调度的goroutine所需时间。这种方式下goroutine的切换也会影响性能。相比从阻塞的channel中切换,从一个函数中切换包含更多的操作。
让我们总结下我们需要测量的操作:
- 当前g阻塞在channel上然后切换到g0:
1、PC和栈指针将保存到goroutine内部结构当中
2、g0 被设置为运行的goroutine
3、g0的堆栈替换当前goroutine的栈 - g0将寻找其他goroutine来运行
-
g0需要切换为选中的goroutine:
1、将PC和栈指针从被选中的g内部结构中提取
2、程序跳转到提取出的PC地址上
如下所示:从g到g0或g0到g是最快阶段,与调度器寻找下一个将运行的goroutine需要检查很多资源相比,他们包含少量固定的指令。根据正在运行的程序,寻找下一个将运行的goroutine阶段可能需要消耗更多的时间。