Linux 程序编译过程的来龙去脉

大家肯定都知道计算机程序设计语言通常分为机器语言、汇编语言和高级语言三类 。高级语言需要通过翻译成机器语言才能执行,而翻译的方式分为两种,一种是编译型,另一种是解释型,因此我们基本上将高级语言分为两大类,一种是编译型语言,例如C,C++,JAVA,另一种是解释型语言,例如Python、Ruby、MATLAB 、JavaScript 。
本文将介绍如何将高层的C/C++语言编写的程序转换成为处理器能够执行的二进制代码的过程,包括四个步骤:

  • 预处理(Preprocessing)
  • 编译(Compilation)
  • 汇编(Assembly)
  • 链接(Linking)

Linux 程序编译过程的来龙去脉

文章插图
GCC 工具链介绍
通常所说的GCC是GUN Compiler Collection的简称,是linux系统上常用的编译工具 。GCC工具链软件包括GCC、Binutils、C运行库等 。
GCC
GCC(GNU C Compiler)是编译工具 。本文所要介绍的将C/C++语言编写的程序转换成为处理器能够执行的二进制代码的过程即由编译器完成 。
Binutils
一组二进制程序处理工具,包括:addr2line、ar、objcopy、objdump、as、ld、ldd、readelf、size等 。这一组工具是开发和调试不可缺少的工具,分别简介如下
  • addr2line:用来将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数 。该工具将帮助调试器在调试的过程中定位对应的源代码位置 。
  • as:主要用于汇编,有关汇编的详细介绍请参见后文 。
  • ld:主要用于链接,有关链接的详细介绍请参见后文 。
  • ar:主要用于创建静态库 。为了便于初学者理解,在此介绍动态库与静态库的概念:
    • 如果要将多个.o目标文件生成一个库文件,则存在两种类型的库,一种是静态库,另一种是动态库 。
    • 在windows中静态库是以 .lib 为后缀的文件,共享库是以 .dll 为后缀的文件 。在linux中静态库是以.a为后缀的文件,共享库是以.so为后缀的文件 。
    • 静态库和动态库的不同点在于代码被载入的时刻不同 。静态库的代码在编译过程中已经被载入可执行程序,因此体积较大 。共享库的代码是在可执行程序运行时才载入内存的,在编译过程中仅简单的引用,因此代码体积较小 。在Linux系统中,可以用ldd命令查看一个可执行程序依赖的共享库 。
    • 如果一个系统中存在多个需要同时运行的程序且这些程序之间存在共享库,那么采用动态库的形式将更节省内存 。
  • ldd:可以用于查看一个可执行程序依赖的共享库 。
  • objcopy:将一种对象文件翻译成另一种格式,譬如将.bin转换成.elf、或者将.elf转换成.bin等 。
  • objdump:主要的作用是反汇编 。有关反汇编的详细介绍,请参见后文 。
  • readelf:显示有关ELF文件的信息,请参见后文了解更多信息 。
  • size:列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总大小等,请参见后文了解使用size的具体使用实例 。
C运行库
C语言标准主要由两部分组成:一部分描述C的语法,另一部分描述C标准库 。C标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的printf函数便是一个C标准库函数,其原型定义在stdio头文件中 。
C语言标准仅仅定义了C标准库函数原型,并没有提供实现 。因此,C语言编译器通常需要一个C运行时库(C Run Time Libray,CRT)的支持 。C运行时库又常简称为C运行库 。与C语言类似,C++也定义了自己的标准,同时提供相关支持库,称为C++运行时库 。
准备工作
由于GCC工具链主要是在Linux环境中进行使用,因此本文也将以Linux系统作为工作环境 。为了能够演示编译的整个过程,本节先准备一个C语言编写的简单Hello程序作为示例,其源代码如下所示
#include <stdio.h> //此程序很简单,仅仅打印一个Hello World的字符串 。intmain(void){printf("Hello World! n");return 0;}编译过程
1.预处理
预处理的过程主要包括以下过程: