Linux内核参数的设定以及整理

Linux内核参数的设定以及整理

微信搜索 zze_coding 或扫描 👉 二维码关注我的微信公众号获取更多资源推送:

内核参数存储路径

内核参数一般来说存储在 /proc/sys 目录下。

通过 /proc/sys 目录树下的文件,可以简单的了解与内核、进程、内存、网络以及其它组件相关的参数配置。每一个进程在 /proc 目录下都有一个以它的 PID 命令的目录。下表是部分文件所包含内核信息说明。

文件/目录 作用
/proc/sys/abi/* 用于提供对外部二进制的支持,比如在类 UNIX 系统,SCO UnixWare 7、SCO OpenServer 和 SUN Solaris 2 上编译的软件。默认情况下是安装的,也可以在安装过程中移除。
/proc/sys/fs/* 设置系统允许的打开文件数和配额等。
/proc/sys/kernel/* 可以启用热插拔、操作共享内存、设置最大的 PID 文件数和 syslog 中的 debug 级别。
/proc/sys/net/* 优化网络,IPV4 和 IPV6
/proc/sys/vm/* 管理缓存和缓冲

设定内核参数

Linux 操作系统修改内核参数有如下 3 种方式:

  1. 修改 /etc/sysctl.conf 文件,加入配置选项,格式为 key = value,修改保存后调用 sysctl -p 加载新配置;
  2. 使用 sysctl 命令临时修改,如:sysctl -w net.ipv4.tcp_mem="379008 505344 758016"
  3. 直接修改 /proc/sys/ 目录中的文件,如: echo "379008 505344 758016" > /proc/sys/net/ipv4/tcp_mem

上述仅第 1 种方式在是永久生效,第 2、3 种方式都是临时生效。

系统当前的内核参数配置可使用 sysctl -a 查看,并且可使用 sysctl -p 检查 /etc/sysctl.conf 配置文件语法并重载生效。

内核参数整理

net

  • net.ipv4.tcp_tw_recycle:是否开启 TCP 连接中 TIME-WAIT sockets 的快速回收,默认为 0 关闭;
  • net.core.rmem_default:默认的 TCP 读取缓冲区;
  • net.core.wmem_default:默认的 TCP 发送缓冲区;
  • net.core.wmem_max:默认的 TCP 最大发送缓冲区;
  • net.ipv4.tcp_rmem:TCP 读取缓冲区;
  • net.ipv4.tcp_mem:TCP 内存大小;
  • net.core.optmem_max:一个套接字所允许的最大缓冲区的大小;
  • net.ipv4.tcp_syn_retries:对于一个新建连接,内核要发送多少个 SYN 连接请求才决定放弃。不应该大于 255,默认值是 5,对应于 180 秒左右时间,(对于大负载而物理通信良好的网络而言,这个值偏高,可修改为 2。这个值仅仅是针对对外的连接,对进来的连接,是由 tcp_retries1 决定的);
  • net.ipv4.tcp_synack_retries:对于远端的连接请求 SYN,内核会发送 SYN + ACK 数据报,以确认收到上一个 SYN 连接请求包。这是所谓的三次握手(threeway handshake)机制的第二个步骤。这里决定内核在放弃连接之前所送出的 SYN+ACK 数目。不应该大于 255,默认值是 5,对应于 180 秒左右时间;
  • net.ipv4.tcp_keepalive_time:TCP 发送 keepalive 探测消息的间隔时间(秒),用于确认 TCP 连接是否有效。防止两边建立连接但不发送数据的攻击;
  • net.ipv4.tcp_keepalive_probes:TCP 发送 keepalive 探测消息的间隔时间(秒),用于确认 TCP 连接是否有效;
  • net.ipv4.tcp_keepalive_intvl:探测消息未获得响应时,重发该消息的间隔时间(秒),默认值为 75 秒 (对于普通应用来说,这个值有一些偏大,可以根据需要改小。特别是 Web 类服务器需要改小该值,15 是个比较合适的值);
  • net.ipv4.tcp_retries1:放弃回应一个 TC P连接请求前,需要进行多少次重试。RFC 规定最低的数值是 3;
  • net.ipv4.tcp_retries2:在丢弃激活(已建立通讯状况)的 TCP 连接之前﹐需要进行多少次重试。默认值为 15,根据 RTO 的值来决定,相当于 13-30 分钟(RFC1122 规定,必须大于 100 秒),这个值根据目前的网络设置,可以适当地改小,我的网络内修改为了 5;
  • net.ipv4.tcp_orphan_retries:在近端丢弃 TCP 连接之前,要进行多少次重试。默认值是 7 个,相当于 50 秒 - 16 分钟,视 RTO 而定。如果您的系统是负载很大的 Web 服务器,那么也许需要降低该值,这类 sockets 可能会耗费大量的资源。另外参的考 tcp_max_orphans(事实上做 NAT 的时候,降低该值也是好处显著的,我本人的网络环境中降低该值为 3);
  • net.ipv4.tcp_fin_timeout:对于本端断开的 Socket 连接,TCP 保持在 FIN-WAIT-2 状态的时间。对方可能会断开连接或一直不结束连接或不可预料的进程死亡,默认值为 60 秒;
  • net.ipv4.tcp_max_tw_buckets:系统在同时所处理的最大 timewait sockets 数目。如果超过此数的话﹐time-wait socket 会被立即砍除并且显示警告信息。之所以要设定这个限制,纯粹为了抵御那些简单的 DoS 攻击,不过,如果网络条件需要比默认值更多﹐则可以提高它(或许还要增加内存)。(事实上做NAT的时候最好可以适当地增加该值)
  • net.ipv4.tcp_tw_reuse:表示是否允许重新应用处于 TIME-WAIT 状态的 socket 用于新的 TCP 连接(这个对快速重启动某些服务,而启动后提示端口已经被使用的情形非常有帮助);
  • net.ipv4.tcp_max_orphans:系统所能处理不属于任何进程的 TCP sockets 最大数量。假如超过这个数量,那么不属于任何进程的连接会被立即 reset,并同时显示警告信息。之所以要设定这个限制﹐纯粹为了抵御那些简单的 DoS 攻击﹐千万不要依赖这个或是人为的降低这个限制。如果内存大更应该增加这个值(这个值 Redhat AS 版本中设置为 32768,但是很多防火墙修改的时候,建议该值修改为 2000);
  • net.ipv4.tcp_abort_on_overflow:当守护进程太忙而不能接受新的连接,就象对方发送reset消息,默认值是 false。这意味着当溢出的原因是因为一个偶然的猝发,那么连接将恢复状态。只有在你确信守护进程真的不能完成连接请求时才打开该选项,该选项会影响客户的使用(对待已经满载的 sendmail、apache 这类服务的时候,这个可以很快让客户端终止连接,可以给予服务程序处理已有连接的缓冲机会,所以很多防火墙上推荐打开它);
  • net.ipv4.tcp_syncookies:只有在内核编译时选择了 CONFIG_SYNCOOKIES 时才会发生作用。当出现 syn 等候队列出现溢出时象对方发送 syncookies。目的是为了防止 syn flood 攻击;
  • net.ipv4.tcp_stdurg:使用 TCP urg pointer 字段中的主机请求解释功能。大部份的主机都使用老旧的 BSD 解释,因此如果您在 Linux 打开它﹐或会导致不能和它们正确沟通;
  • net.ipv4.tcp_max_syn_backlog:对于那些依然还未获得客户端确认的连接请求﹐需要保存在队列中最大数目。对于超过 128Mb 内存的系统﹐默认值是 1024 ﹐低于 128Mb 的则为 128。如果服务器经常出现过载,可以尝试增加这个数字。警告﹗假如您将此值设为大于 1024﹐最好修改 include/net/tcp.h 里面的 TCP_SYNQ_HSIZE,以保持 TCP_SYNQ_HSIZE*16(SYN Flood 攻击利用 TCP 协议散布握手的缺陷,伪造虚假源 IP 地址发送大量 TCP-SYN 半打开连接到目标系统,最终导致目标系统 Socket 队列资源耗尽而无法接受新的连接。为了应付这种攻击,现代 Unix 系统中普遍采用多连接队列处理的方式来缓冲(而不是解决)这种攻击,是用一个基本队列处理正常的完全连接应用(Connect()Accept()),是用另一个队列单独存放半打开连接。这种双队列处理方式和其他一些系统内核措施(例如 Syn-Cookies/Caches)联合应用时,能够比较有效的缓解小规模的 SYN Flood 攻击(事实证明);
  • net.ipv4.tcp_window_scaling:该文件表示设置 tcp/ip 会话的滑动窗口大小是否可变。参数值为布尔值,为 1 时表示可变,为 0 时表示不可变。tcp/ip 通常使用的窗口最大可达到 65535 字节,对于高速网络,该值可能太小,这时候如果启用了该功能,可以使 tcp/ip 滑动窗口大小增大数个数量级,从而提高数据传输的能力(RFC 1323)。(对普通地百 M 网络而言,关闭会降低开销,所以如果不是高速网络,可以考虑设置为 0);
  • net.ipv4.tcp_timestamps:Timestamps 用在其它一些东西中,可以防范那些伪造的 sequence 号码。一条1G的宽带线路或许会重遇到带 out-of-line 数值的旧 sequence 号码(假如它是由于上次产生的)。Timestamp 会让它知道这是个“旧封包”(该文件表示是否启用以一种比超时重发更精确的方法(RFC 1323)来启用对 RTT 的计算;为了实现更好的性能应该启用这个选项);
  • net.ipv4.tcp_sack:使用 Selective ACK﹐它可以用来查找特定的遗失的数据报——因此有助于快速恢复状态。该文件表示是否启用有选择的应答(Selective Acknowledgment),这可以通过有选择地应答乱序接收到的报文来提高性能(这样可以让发送者只发送丢失的报文段,对于广域网通信来说这个选项应该启用,但是这会增加对 CPU 的占用);
  • net.ipv4.tcp_fack:打开 FACK 拥塞避免和快速重传功能。(注意,当 tcp_sack 设置为 0 的时候,这个值即使设置为 1 也无效,这个是 TCP 连接靠谱的核心功能);
  • net.ipv4.tcp_dsack:允许 TCP 发送“两个完全相同”的 SACK;
  • net.ipv4.tcp_ecn:TCP 的直接拥塞通告功能。
  • net.ipv4.tcp_reordering:TCP 流中重排序的数据报最大数量 (一般有看到推荐把这个数值略微调整大一些,比如 5)。
  • net.ipv4.tcp_retrans_collapse:对于某些有 bug 的打印机提供针对其 bug 的兼容性(一般不需要这个支持,可以关闭它)。
  • net.ipv4.tcp_wmem:min:为 TCP socket 预留用于发送缓冲的内存最小值。每个 tcp socket 都可以在建议以后都可以使用它。默认值为 4096(4K)。default:为 TCP socket 预留用于发送缓冲的内存数量,默认情况下该值会影响其它协议使用的 net.core.wmem_default 值,一般要低于 net.core.wmem_default 的值。默认值为 16384(16K)。max: 用于 TCP socket 发送缓冲的内存最大值。该值不会影响 net.core.wmem_max,“静态”选择参数 SO_SNDBUF 则不受该值影响。默认值为131072(128K,对于服务器而言,增加这个参数的值对于发送数据很有帮助,在我的网络环境中,修改为了51200 131072 204800);
  • net.ipv4.low:当 TCP 使用了低于该值的内存页面数时,TCP 不会考虑释放内存。即低于此值没有内存压力(理想情况下,这个值应与指定给 tcp_wmem 的第 2 个值相匹配 - 这第 2 个值表明,最大页面大小乘以最大并发请求数除以页大小 (131072 * 300 / 4096));
  • net.ipv4.pressure:当 TCP 使用了超过该值的内存页面数量时,TCP 试图稳定其内存使用,进入 pressure 模式,当内存消耗低于 low 值时则退出 pressure 状态(理想情况下这个值应该是 TCP 可以使用的总缓冲区大小的最大值 (204800 * 300 / 4096));
  • net.ipv4.high:允许所有 tcp sockets 用于排队缓冲数据报的页面量(如果超过这个值,TCP 连接将被拒绝,这就是为什么不要令其过于保守 (512000 * 300 / 4096) 的原因了。 在这种情况下,提供的价值很大,它能处理很多连接,是所预期的 2.5 倍;或者使现有连接能够传输 2.5 倍的数据。 我的网络里为192000 300000 732000)一般情况下这些值是在系统启动时根据系统内存数量计算得到的;
  • net.ipv4.tcp_app_win:保留 max(window/2^tcp_app_win, mss) 数量的窗口由于应用缓冲。当为 0 时表示不需要缓冲;
  • net.ipv4.tcp_adv_win_scale:计算缓冲开销 bytes/2^tcp_adv_win_scale(如果 tcp_adv_win_scale > 0)或者 bytes-bytes/2^(-tcp_adv_win_scale)(如果 tcp_adv_win_scale BOOLEAN>0);
  • net.ipv4.tcp_low_latency:允许 TCP/IP 栈适应在高吞吐量情况下低延时的情况;这个选项一般情形是的禁用(但在构建 Beowulf 集群的时候,打开它很有帮助);
  • net.ipv4.tcp_westwood:启用发送者端的拥塞控制算法,它可以维护对吞吐量的评估,并试图对带宽的整体利用情况进行优化;对于 WAN 通信来说应该启用这个选项;
  • net.ipv4.tcp_bic:为快速长距离网络启用 Binary Increase Congestion;这样可以更好地利用以 GB 速度进行操作的链接;对于 WAN 通信应该启用这个选项;
  • net.ipv4.ip_forward:NAT 必须开启 IP 转发支持,把该值写 1;
  • net.ipv4.ip_local_port_range:表示用于向外连接的端口范围,默认比较小,这个范围同样会间接用于 NAT 表规模;
  • net.ipv4.ip_conntrack_max:系统支持的最大 ipv4 连接数,默认 65536(事实上这也是理论最大值),同时这个值和你的内存大小有关,如果内存 128M,这个值最大 8192,1G 以上内存这个值都是默认 65536;
  • net.ipv4.netfilter.ip_conntrack_max:系统支持的最大 ipv4 连接数,默认 65536(事实上这也是理论最大值),同时这个值和你的内存大小有关,如果内存 128M,这个值最大 8192,1G 以上内存这个值都是默认 65536,这个值受 /proc/sys/net/ipv4/ip_conntrack_max 限制;
  • net.ipv4.netfilter.ip_conntrack_tcp_timeout_established:已建立的 tcp 连接的超时时间,默认 432000,也就是 5 天。影响:这个值过大将导致一些可能已经不用的连接常驻于内存中,占用大量链接资源,从而可能导致 NAT ip_conntrack: table full 的问题。建议:对于 NAT 负载相对本机的 NAT 表大小很紧张的时候,可能需要考虑缩小这个值,以尽早清除连接,保证有可用的连接资源,如果不紧张,不必修改;
  • net.ipv4.netfilter.ip_conntrack_tcp_timeout_time_wait:time_wait 状态超时时间,超过该时间就清除该连接;
  • net.ipv4.netfilter.ip_conntrack_tcp_timeout_close_wait:close_wait 状态超时时间,超过该时间就清除该连接;
  • net.ipv4.netfilter.ip_conntrack_tcp_timeout_fin_wait:fin_wait 状态超时时间,超过该时间就清除该连接;
  • net.core.netdev_max_backlog:每个网络接口接收数据包的速率比内核处理这些包的速率快时,允许送到队列的数据包的最大数目,对重负载服务器而言,该值需要调高一点;
  • net.core.somaxconn:用来限制监听(LISTEN)队列最大数据包的数量,超过这个数量就会导致链接超时或者触发重传机制。Web 应用中 listen 函数的 backlog 默认会给我们内核参数的 net.core.somaxconn 限制到 128,而 nginx 定义的 NGX_LISTEN_BACKLOG 默认为 511,所以有必要调整这个值。对繁忙的服务器,增加该值有助于网络性能;
  • net.core.rmem_max:最大的 TCP 数据接收缓冲;

fs

  • fs.file-max:所有进程打开的文件描述符数;
  • fs.nr_open:单个进程可分配的最大文件数;

kernel

  • kernel.shmmax:该参数定义了共享内存段的最大尺寸(以字节为单位)。其值应 >=sag_max_size 初始化参数的大小,否则 SAG 由多个内存段构成,效率降低,还要不小于物理内存的一半,默认情况下在 32 位 x86 系统中,Oracle SGA 最大不能超过 1.7GB;
  • kernel.shmmni:这个内核参数用于设置系统范围内共享内存段的最大数量。该参数的默认值是 4096;
  • kernel.shmall:该参数表示系统任意时刻可以分配的所有共享内存段的总和的最大值(以页为单位),其值应不小于 shmmax/page_size,缺省值就是 2097152,如果服务器上运行的所有实例的 SGA 总和不超过 8GB(通常系统可分配的共享内存的和最大值为 8GB),通常不需要修改;

vm

  • vm.swappiness:内存分配策略,设置为 0 是告诉系统除非虚拟内存完全满了否则不要使用交换区。风险:降低操作系统性能,在系统资源不足下,容易被 OOM kill 掉;

持续整理更新...

生产参数参考

net.ipv4.tcp_syn_retries = 1

net.ipv4.tcp_synack_retries = 1

net.ipv4.tcp_keepalive_time = 600

net.ipv4.tcp_keepalive_probes = 3

net.ipv4.tcp_keepalive_intvl =15

net.ipv4.tcp_retries2 = 5

net.ipv4.tcp_fin_timeout = 2

net.ipv4.tcp_max_tw_buckets = 36000

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_max_orphans = 32768

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_max_syn_backlog = 16384

net.ipv4.tcp_wmem = 8192 131072 16777216

net.ipv4.tcp_rmem = 32768 131072 16777216

net.ipv4.tcp_mem = 786432 1048576 1572864

net.ipv4.ip_local_port_range = 1024 65000

net.ipv4.ip_conntrack_max = 65536

net.ipv4.netfilter.ip_conntrack_max=65536

net.ipv4.netfilter.ip_conntrack_tcp_timeout_established=180

net.core.somaxconn = 16384

net.core.netdev_max_backlog = 16384

对比网上其他人的生产环境优化参数,需要优化的参数基本差不多,只是值有相应的变化。具体优化值要参考应用场景,这儿所列只是常用优化参数,是否适合,可在上面查看该参数描述,理解后,再根据自己生产环境而设。

参考:

Copyright: 采用 知识共享署名4.0 国际许可协议进行许可

Links: https://www.zze.xyz/archives/linux-kernel-params.html

Buy me a cup of coffee ☕.