搞懂Linux内存管理,仅此一篇

内存管理应该是linux内核中非常重要的子系统,之前一直在构思怎么去写一篇Linux内存管理的文章,由于内容实在过于庞大复杂,要想要通俗易懂而且不丢失专业性的阐述真的是一种考验 。了解内管管理的实现原理不管对内核开发人员还是应用程序开发人员来说都帮助极大 。本文也致力于用简单生动的语言带领大家认识内存管理的原理,当然也少不了一些理论知识的铺垫 。我们的目的不是探讨理论,而是为了更加全面的理解原理,必要时我们会深入理论,窥探理论知识的背后 。
进程和内存我们都知道,进程运行需要内存 。它主要是用来存放从存储介质中(磁盘/flash/...)载入的程序代码和进程运行所需要的数据内容 。在我的另一篇文章中怎样深入理解堆和栈有对进程的组成讲解 。对于一个进程来说都会有5中不同的数据段 。

  1. 代码段(text):代码段是用来存放可执行文件的操作指令,也就是说它存放的是可执行程序中在内存中的镜像 。代码段是不允许修改的,所以只能进行读操作,而不允许写入的操作 。
  2. 数据段(data):数据段主要用来存放已经初始化的全局变量,也就是说存放程序静态分配的变量(静态分配内存就是编译器在编译程序的时候根据源程序来分配内存. 动态分配内存就是在程序编译之后, 运行时调用运行时刻库函数来分配内存的. 静态分配由于是在程序运行之前,所以速度快, 效率高, 但是局限性大. 动态分配在程序运行时执行, 所以速度慢, 但灵活性高.)和全局变量 。
  3. bss段:bss段包含了程序中未初始化的全局变量,在内存中bss段会全部统一清零 。(延伸:这就是为什么没有初始化的全局变量,都会被清零的原因)
  4. 堆(heap):堆是用来存储进程动态分配的内存,它的大小并不固定 。具体可参考怎样深入理解堆和栈
  5. 栈(stack):栈是用来存放临时变量的地方,也就是C程序中{}中的变量,不包括static声明的变量(虽然static是局部变量,它的作用范围在{}中,但是它的生存周期是整个程序生命周期,它存放在数据段中) 。程序在函数调用时,参数个数过多的函数会通过栈的方式,将参数压入栈中,并且在调用结束后,函数的返回值也会通过栈来返回 。从这个意义上讲,我们可以把栈看成一个寄存,交换临时数据的内存区 。详细可以参考文章怎样深入理解堆和栈 。
 
通过程序对内存的不同用途,分为了上述5种不同的段,那这些段在内存是怎样组织的呢?看下图:
 
搞懂Linux内存管理,仅此一篇

文章插图
 
 
从图中我们不难发现,堆栈好像是挨在一起的,他们一个向下“长”(i386体系结构中栈向下、堆向上),一个向上“长”,相对而生 。但你不必担心他们会碰头,因为他们之间间隔真的很大 。
【搞懂Linux内存管理,仅此一篇】从用户态向内核态看,我们所使用的内存形式的变化:
搞懂Linux内存管理,仅此一篇

文章插图
 
逻辑地址经段机制转化成线性地址;线性地址又经过页机制转化为物理地址 。(但是我们要知道Linux系统虽然保留了段机制,但是将所有程序的段地址都定死为0-4G,所以虽然逻辑地址和线性地址是两种不同的地址空间,但在Linux中逻辑地址就等于线性地址,它们的值是一样的) 。沿着这条线索,我们所研究的主要问题也就集中在下面几个问题 。
  1. 进程地址空间如何管理?
  2. 进程地址如何映射物理内存呢?
  3. 物理内存又是如何被管理的呢?
下面我们就来看看吧 。
进程地址空间现代的操作系统基本是采用虚拟内存管理技术,当然Linux作为先进的os也不例外,每个进程都有自己的进程地址空间 。该空间为4G的线性虚拟空间 。用户态接触到的都是虚拟地址,根本无法看到物理地址,也不用关心物理地址 。利用这种虚拟地址的方式,可以保护内存资源,起到隔离的作用 。而且对于用户程序来说,始终是4G的大小,可以在程序编译的时候就能确定代码段地址 。我们应该知道三件事情:
  1. 4G的进程地址空间被人为的分为两个部分——用户空间与内核空间 。用户空间从0到3G(0xC0000000),内核空间占据3G到4G 。用户进程通常情况下只能访问用户空间的虚拟地址,不能访问内核空间虚拟地址 。只有用户进程进行系统调用(代表用户进程在内核态执行)等时刻可以访问到内核空间 。


    推荐阅读