Linux内存管理(下）

技术2022-07-10 270

Linux内存管理(下）

物理内存管理物理页管理面临问题外部碎片内部碎片 Buddy（伙伴）分配算法分配实例 slab分配器大白话说原理数据结构 slab高速缓存的分类通用高速缓存专用高速缓存虚拟内存分配用户空间内存分配malloc 内核空间内存分配kmallocvmalloc Reference

前面转载了一篇文章，介绍了linux的内存管理基础 Linux内存管理(上）

接下来继续文章来自https://mp.weixin.qq.com/s/EvU7pV51ctPooREQt_8SaQ 可以看看https://my.oschina.net/u/4374904/blog/4318380

物理内存管理

在Linux系统中通过分段和分页机制，把物理内存划分 4K 大小的内存页 Page（也称作页框Page Frame），物理内存的分配和回收都是基于内存页进行，把物理内存分页管理的好处大大的。

假如系统请求小块内存，可以预先分配一页给它，避免了反复的申请和释放小块内存带来频繁的系统开销。

假如系统需要大块内存，则可以用多页内存拼凑，而不必要求大块连续内存。你看不管内存大小都能收放自如，分页机制多么完美的解决方案！

But，理想很丰满，现实很骨感。如果就直接这样把内存分页使用，不再加额外的管理还是存在一些问题，下面我们来看下，系统在多次分配和释放物理页的时候会遇到哪些问题。

物理页管理面临问题

物理内存页分配会出现外部碎片和内部碎片问题，所谓的「内部」和「外部」是针对「页框内外」而言，一个页框内的内存碎片是内部碎片，多个页框间的碎片是外部碎片。

外部碎片

当需要分配大块内存的时候，要用好几页组合起来才够，而系统分配物理内存页的时候会尽量分配连续的内存页面，频繁的分配与回收物理页导致大量的小块内存夹杂在已分配页面中间，形成外部碎片，举个例子：

内部碎片

物理内存是按页来分配的，这样当实际只需要很小内存的时候，也会分配至少是 4K 大小的页面，而内核中有很多需要以字节为单位分配内存的场景，这样本来只想要几个字节而已却不得不分配一页内存，除去用掉的字节剩下的就形成了内部碎片。

方法总比困难多，因为存在上面的这些问题，聪明的程序员灵机一动，引入了页面管理算法来解决上述的碎片问题。主要是下面的伙伴系统和slab分配器

Buddy（伙伴）分配算法

Linux 内核引入了伙伴系统算法（Buddy system），什么意思呢？就是把相同大小的页框块用链表串起来，页框块就像手拉手的好伙伴，也是这个算法名字的由来。

具体的，所有的空闲页框分组为11个块链表，每个块链表分别包含大小为1，2，4，8，16，32，64，128，256，512和1024个连续页框的页框块。最大可以申请1024个连续页框，对应4MB大小的连续内存。

因为任何正整数都可以由 2^n 的和组成，所以总能找到合适大小的内存块分配出去，减少了外部碎片产生。

分配实例

比如：我需要申请4个页框，但是长度为4个连续页框块链表没有空闲的页框块，伙伴系统会从连续8个页框块的链表获取一个，并将其拆分为两个连续4个页框块，取其中一个，另外一个放入连续4个页框块的空闲链表中。释放的时候会检查，释放的这几个页框前后的页框是否空闲，能否组成下一级长度的块。

命令查看

[lemon]]# cat /proc/buddyinfo Node 0, zone DMA 1 0 0 0 2 1 1 0 1 1 3 Node 0, zone DMA32 3198 4108 4940 4773 4030 2184 891 180 67 32 330 Node 0, zone Normal 42438 37404 16035 4386 610 121 22 3 0 0 1

slab分配器

关于slab分配器，这里2篇文章，讲的更清楚点，强烈推荐先看看这篇：https://blog.csdn.net/lukuen/article/details/6935068 （注:Linux内核：slab/slob/slub） https://www.cnblogs.com/pengdonglin137/p/3878552.html

看到这里你可能会想，有了伙伴系统这下总可以管理好物理内存了吧？不，还不够，否则就没有slab分配器什么事了。

那什么是slab分配器呢？

一般来说，内核对象的生命周期是这样的：分配内存-初始化-释放内存，内核中有大量的小对象，比如文件描述结构对象、任务描述结构对象，如果按照伙伴系统按页分配和释放内存，对小对象频繁的执行「分配内存-初始化-释放内存」会非常消耗性能。

伙伴系统分配出去的内存还是以页框为单位，而对于内核的很多场景都是分配小片内存，远用不到一页内存大小的空间。slab分配器，「通过将内存按使用对象不同再划分成不同大小的空间」，应用于内核对象的缓存。

伙伴系统和slab不是二选一的关系，slab 内存分配器是对伙伴分配算法的补充。

大白话说原理

对于每个内核中的相同类型的对象，如：task_struct、file_struct 等需要重复使用的小型内核数据对象，都会有个 slab 缓存池，缓存住大量常用的「已经初始化」的对象，每当要申请这种类型的对象时，就从缓存池的slab 列表中分配一个出去；而当要释放时，将其重新保存在该列表中，而不是直接返回给伙伴系统，从而避免内部碎片，同时也大大提高了内存分配性能。

主要优点

slab 解决小块内存的分配，不用每次都分配一页内存，充分利用内存空间，避免内部碎片。slab 对内核中频繁创建和释放的小对象做缓存，重复利用一些相同的对象，减少内存分配次数。

https://www.cnblogs.com/pengdonglin137/p/3878552.html slab分配器中用到了对象这个概念，所谓对象就是内核中的数据结构以及对该数据结构进行创建和撤销的操作。它的基本思想是将内核中经常使用的对象放到高速缓存中，并且由系统保持为初始的可利用状态。比如进程描述符，内核中会频繁对此数据进行申请和释放。当一个新进程创建时，内核会直接从slab分配器的高速缓存中获取一个已经初始化了的对象；当进程结束时，该结构所占的页框并不被释放，而是重新返回slab分配器中。如果没有基于对象的slab分配器，内核将花费更多的时间去分配、初始化以及释放一个对象。

slab分配器有以下三个基本目标： 1.减少伙伴算法在分配小块连续内存时所产生的内部碎片； 2.将频繁使用的对象缓存起来，减少分配、初始化和释放对象的时间开销。 3.通过着色技术调整对象以更好的使用硬件高速缓存；

slab分配器为每种对象分配一个高速缓存，这个缓存可以看做是同类型对象的一种储备。每个高速缓存所占的内存区又被划分多个slab，每个 slab是由一个或多个连续的页框组成。每个页框中包含若干个对象，既有已经分配的对象，也包含空闲的对象。slab分配器的大致组成图如下：每个高速缓存通过kmem_cache结构来描述，这个结构中包含了对当前高速缓存各种属性信息的描述。所有的高速缓存通过双链表组织在一起，形成高速缓存链表cache_chain。每个kmem_cache结构中并不包含对具体slab的描述，而是通过kmem_list3结构组织各个 slab。

数据结构

kmem_cache 是一个cache_chain 的链表组成节点，代表的是一个内核中的相同类型的「对象高速缓存」，每个kmem_cache 通常是一段连续的内存块，包含了三种类型的 slabs 链表：

slabs_full (完全分配的 slab 链表)slabs_partial (部分分配的slab 链表)slabs_empty ( 没有被分配对象的slab 链表) kmem_cache 中有个重要的结构体 kmem_list3 包含了以上三个数据结构的声明。

slab 是slab 分配器的最小单位，在实现上一个 slab 由一个或多个连续的物理页组成（通常只有一页）。单个slab可以在 slab 链表之间移动，例如如果一个「半满slabs_partial链表」被分配了对象后变满了，就要从 slabs_partial 中删除，同时插入到「全满slabs_full链表」中去。内核slab对象的分配过程是这样的：

如果slabs_partial链表还有未分配的空间，分配对象，若分配之后变满，移动 slab 到slabs_full 链表如果slabs_partial链表没有未分配的空间，进入下一步如果slabs_empty 链表还有未分配的空间，分配对象，同时移动slab进入slabs_partial链表如果slabs_empty为空，请求伙伴系统分页，创建一个新的空闲slab，按步骤 3 分配对象命令查看

上面说的都是理论，比较抽象，动动手来康康系统中的 slab 吧！你可以通过 cat /proc/slabinfo 命令，实际查看系统中slab 信息。

slabtop 实时显示内核 slab 内存缓存信息。

slab高速缓存的分类

slab高速缓存分为两大类，「通用高速缓存」和「专用高速缓存」。

通用高速缓存

slab分配器中用 kmem_cache 来描述高速缓存的结构，它本身也需要 slab 分配器对其进行高速缓存。cache_cache 保存着对「高速缓存描述符的高速缓存」，是一种通用高速缓存，保存在cache_chain 链表中的第一个元素。

slab分配器中kmem_cache是用来描述高速缓存的结构，因此它本身也需要slab分配器对其进行高速缓存。cache_cache变量保存着对高速缓存描述符的高速缓存。

static struct kmem_cache cache_cache = { .batchcount = 1, .limit = BOOT_CPUCACHE_ENTRIES, .shared = 1, .buffer_size = sizeof(struct kmem_cache), .name = "kmem_cache", };

另外，slab 分配器所提供的小块连续内存的分配，也是通用高速缓存实现的。通用高速缓存所提供的对象具有几何分布的大小，范围为32到131072字节。内核中提供了 kmalloc() 和 kfree() 两个接口分别进行内存的申请和释放。

专用高速缓存

内核为专用高速缓存的申请和释放提供了一套完整的接口，根据所传入的参数为指定的对象分配slab缓存。

专用高速缓存的申请和释放

kmem_cache_create() 用于对一个指定的对象创建高速缓存。它从 cache_cache 普通高速缓存中为新的专有缓存分配一个高速缓存描述符，并把这个描述符插入到高速缓存描述符形成的 cache_chain 链表中。 kmem_cache_destory() 用于撤消和从 cache_chain 链表上删除高速缓存。

slab的申请和释放

slab 数据结构在内核中的定义，如下： kmem_cache_alloc() 在其参数所指定的高速缓存中分配一个slab，对应的 kmem_cache_free() 在其参数所指定的高速缓存中释放一个slab。

随着大规模多处理器系统和 NUMA 系统的广泛应用，Slab 也暴露出了一下问题：

复杂的队列管理。管理数据和队列存储开销较大。长时间运行 partial 队列可能会非常长。对 NUMA 支持非常复杂。

为了解决问题，基于 Slab 推出了 Slub：改造 Page 结构来削减 Slab 管理结构的开销、每个 CPU 都有一个本地活动的 slab（kmem_cache_cpu），对于小型的嵌入式系统存在一个 Slab 模拟层 Slob，在这种系统中它更有优势。

虚拟内存分配

前面讨论的都是对物理内存的管理，Linux 通过虚拟内存管理，欺骗了用户程序假装每个程序都有 4G 的虚拟内存寻址空间

所以我们来研究下虚拟内存的分配，这里包括用户空间虚拟内存和内核空间虚拟内存。

注意，分配的虚拟内存还没有映射到物理内存，只有当访问申请的虚拟内存时，才会发生缺页异常，再通过上面介绍的伙伴系统和 slab 分配器申请物理内存。

用户空间内存分配

用户态内存分配函数：

alloca 是向栈申请内存，因此无需释放。malloc 所分配的内存空间未被初始化，使用 malloc() 函数的程序开始时（内存空间还没有被重新分配）能正常运行，但经过一段时间后（内存空间已被重新分配）可能会出现问题。calloc 会将所分配的内存空间中的每一位都初始化为零。realloc 扩展现有内存空间大小。如果当前连续内存块足够 realloc 的话，只是将 p 所指向的空间扩大，并返回 p 的指针地址。这个时候 q 和 p 指向的地址是一样的。如果当前连续内存块不够长度，再找一个足够长的地方，分配一块新的内存，q，并将 p 指向的内容 copy 到 q，返回 q。并将 p 所指向的内存空间删除。

malloc

malloc 用于申请用户空间的虚拟内存，当申请小于 128KB 小内存的时，malloc使用 sbrk或brk 分配内存；当申请大于 128KB 的内存时，使用 mmap 函数申请内存；

存在问题由于 brk/sbrk/mmap 属于系统调用，如果每次申请内存都要产生系统调用开销，cpu 在用户态和内核态之间频繁切换，非常影响性能。

而且，堆是从低地址往高地址增长，如果低地址的内存没有被释放，高地址的内存就不能被回收，容易产生内存碎片。

解决因此，malloc采用的是内存池的实现方式，先申请一大块内存，然后将内存分成不同大小的内存块，然后用户申请内存时，直接从内存池中选择一块相近的内存块分配出去。

内核空间内存分配

在讲内核空间内存分配之前，先来回顾一下内核地址空间。kmalloc 和 vmalloc 分别用于分配不同映射区的虚拟内存，看这张上次画的图：

kmalloc

kmalloc() 分配的虚拟地址范围在内核空间的「直接内存映射区」。

按字节为单位虚拟内存，一般用于分配小块内存，释放内存对应于 kfree ，可以分配连续的物理内存。函数原型在 <linux/kmalloc.h> 中声明，一般情况下在驱动程序中都是调用 kmalloc() 来给数据结构分配内存。

还记得前面说的 slab 吗？kmalloc 是基于slab 分配器的，同样可以用cat /proc/slabinfo 命令，查看 kmalloc 相关 slab 对象信息，下面的 kmalloc-8、kmalloc-16 等等就是基于slab分配的 kmalloc 高速缓存。

vmalloc

vmalloc 分配的虚拟地址区间，位于 vmalloc_start 与vmalloc_end 之间的「动态内存映射区」。

一般用分配大块内存，释放内存对应于 vfree，分配的虚拟内存地址连续，物理地址上不一定连续。函数原型在 <linux/vmalloc.h> 中声明。一般用在为活动的交换区分配数据结构，为某些 I/O 驱动程序分配缓冲区，或为内核模块分配空间。

下面的图总结了上述两种内核空间虚拟内存分配方式。总结一下：

分配函数区域连续性释放函数kmalloc内核空间物理地址连续kfreevmalloc内核空间虚拟地址连续vfreemalloc用户空间虚拟地址连续free

Reference

《Linux内核设计与实现(原书第3版)》

linux内核slab机制分析

Linux内存管理中的slab分配器

Linux slab 分配器剖析

Linux内核内存管理算法Buddy和Slab

Linux内存之Slab

Processed: 0.016, SQL: 9