介绍
HAProxy 是一个使用 C 语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,以及基于 TCP 和 HTTP 的应用程序代理。
HAProxy 特别适用于那些负载特大的 Web 站点,这些站点通常又需要会话保持或七层处理。HAProxy 运行在当前的硬件上,完全可以支持数以万计的并发连接。并且它的运行模式使得它可以很简单安全的整合进您当前的架构中,同时可以保护你的 Web 服务器不被暴露到网络上。
HAProxy 实现了一种事件驱动,单一进程模型,此模型支持非常大的并发连接数。多进程或多线程模型受内存限制、系统调度器限制以及无处不在的锁限制,很少能处理数千并发连接。事件驱动模型因为在有更好的资源和时间管理的用户空间(User-Space)实现所有这些任务,所以没有这些问题。此模型的弊端是,在多核系统上,这些程序通常扩展性较差。这就是为什么他们必须进行优化以使每个 CPU 时间片(Cycle)做更多的工作。
包括 GitHub、Bitbucket、Stack Overflow、Reddit、Tumblr、Twitter 和 Tuenti 在内的知名网站,及亚马逊网络服务系统都使用了 HAProxy。
可参考视频:
HAProxy 官网地址:http://www.haproxy.org/
安装及配置
安装
直接使用 yum 安装即可:
$ yum install haproxy -y
配置文件详解
HAProxy 的配置文件路径为 /etc/haproxy/haproxy.cfg
,其默认内容如下:
$ sed '/^\s*#/d' /etc/haproxy/haproxy.cfg
global
log 127.0.0.1 local2
chroot /var/lib/haproxy
pidfile /var/run/haproxy.pid
maxconn 4000
user haproxy
group haproxy
daemon
stats socket /var/lib/haproxy/stats
defaults
mode http
log global
option httplog
option dontlognull
option http-server-close
option forwardfor except 127.0.0.0/8
option redispatch
retries 3
timeout http-request 10s
timeout queue 1m
timeout connect 10s
timeout client 1m
timeout server 1m
timeout http-keep-alive 10s
timeout check 10s
maxconn 3000
frontend main *:5000
acl url_static path_beg -i /static /images /javascript /stylesheets
acl url_static path_end -i .jpg .gif .png .css .js
use_backend static if url_static
default_backend app
backend static
balance roundrobin
server static 127.0.0.1:4331 check
backend app
balance roundrobin
server app1 127.0.0.1:5001 check
server app2 127.0.0.1:5002 check
server app3 127.0.0.1:5003 check
server app4 127.0.0.1:5004 check
HAProxy 配置文件根据功能和用途,主要由五个部分组成,但有些部分并不是必须的,可以根据需要选择相应的部分进行配置。
global
部分:用来设定全局配置参数,属于进程级的配置,通常和操作系统配置有关。defaults
部分:默认参数的配置部分,在此部分设置的参数值,默认会自动被引用到下面的frontend
、backend
和listen
部分中,因此,如果某些参数属于公用的配置,只需在defaults
部分添加一次即可。而如果在frontend
、backend
和listen
部分中也配置了与defaults
部分一样的参数,那么defaults
部分参数对应的值自动被覆盖。frontend
部分:此部分用于设置接收用户请求的前端虚拟节点。frontend
是在 HAProxy 1.3 版本之后才引入的一个组件,同时引入的还有backend
组件。通过引入这些组件,在很大程度上简化了 HAProxy 配置文件的复杂性。frontend
可以根据 ACL 规则直接指定要使用的后端。backend
部分:此部分用于设置集群后端服务集群的配置,也就是用来添加一组真实服务器,以处理前端用户的请求。添加的真实服务器类似于 LVS 中的 real server 节点。listen
部分:此部分是frontend
部分和backend
部分的结合体。在 HAProxy 1.3 版本之前,HAProxy 的所有配置选项都在这个部分中设置。为了保持兼容性,HAProxy 新的版本仍然保留了 listen 组件的配置方式。目前在 HAProxy 中,两种配置方式任选其一即可。
global 部分常用参数
进程管理及安全相关的参数:
chroot <jail dir>:修改 haproxy 的工作目录至指定的目录并在放弃权限之前执行 chroot() 操作,可以提升 haproxy 的安全级别,不过需要注意的是要确保指定的目录为空目录且任何用户均不能有写权限;
daemon:让 haproxy 以守护进程的方式工作于后台,其等同于“-D”选项的功能,当然,也可以在命令行中以“-db”选项将其禁用;
gid <number>:以指定的 gid 运行 haproxy,建议使用专用于运行 haproxy 的 gid,以免因权限问题带来风险;
group <group name>:同 gid,不过指定的组名;
log <address> <facility> [max level [min level]]:定义全局的 syslog 服务器,最多可以定义两个;
log-send-hostname [<string>]:在 syslog 信息的首部添加当前主机名,可以为“string”指定的名称,也可以缺省使用当前主机名;
nbproc <number>:指定启动的 haproxy 进程的个数,只能用于守护进程模式的 haproxy,默认只启动一个进程,鉴于调试困难等多方面的原因,一般只在单进程仅能打开少数文件描述符的场景中才使用多进程模式;
pidfile:指定进程文件的位置;
uid:以指定的 uid 身份运行 haproxy 进程;
ulimit-n:设定每进程所能够打开的最大文件描述符数目,默认情况下其会自动进行计算,因此不推荐修改此选项;Linux 默认单进程打开文件数为 1024 个;
user:同 uid,但使用的是用户名;
stats:用户访问统计数据的接口;
node:定义当前节点的名称,用于 HA 场景中多 haproxy 进程共享同一个 IP 地址时;
description:当前实例的描述信息;
性能调整相关的参数:
maxconn <number>:设定每个 haproxy 进程所接受的最大并发连接数,其等同于命令行选项“-n”,“ulimit -n”自动计算的结果正是参照此参数设定的;
maxpipes <number>:haproxy 使用 pipe 完成基于内核的 tcp 报文重组,此选项则用于设定每进程所允许使用的最大 pipe 个数,每个 pipe 会打开两个文件描述符,因此,“ulimit -n”自动计算时会根据需要调大此值,默认为 maxconn/4,其通常会显得过大;
noepoll:在 Linux 系统上禁用 epoll 机制;
nokqueue:在 BSE 系统上禁用 kqueue 机制;
nopoll:禁用 poll 机制;
nosepoll:在 Linux 禁用启发式 epoll 机制;
nosplice:禁止在 Linux 套接字上使用内核 tcp 重组,这会导致更多的 recv/send 系统调用;不过,在 Linux 2.6.25-28 系列的内核上,tcp 重组功能有 bug 存在;
spread-checks <0..50, in percent>:在 haproxy 后端有着众多服务器的场景中,在精确的时间间隔后统一对众服务器进行健康状况检查可能会带来意外问题,此选项用于将其检查的时间间隔长度上增加或减小一定的随机时长;
tune.bufsize <number>:设定 buffer 的大小,同样的内存条件小,较小的值可以让 haproxy 有能力接受更多的并发连接,较大的值可以让某些应用程序使用较大的 cookie 信息,默认为 16384,其可以在编译时修改,不过强烈建议使用默认值;
tune.chksize <number>:设定检查缓冲区的大小,单位为字节;更大的值有助于在较大的页面中完成基于字符串或模式的文本查找,但也会占用更多的系统资源,不建议修改;
tune.maxaccept <number>:设定 haproxy 进程内核调度运行时一次性可以接受的连接的个数,较大的值可以带来较大的吞吐率,默认在单进程模式下为 100,多进程模式下为 8,设定为 -1 可以禁止此限制,一般不建议修改;
tune.maxpollevents <number>:设定一次系统调用可以处理的事件最大数,默认值取决于 OS,其值小于 200 时可节约带宽,但会略微增大网络延迟,而大于 200 时会降低延迟,但会稍稍增加网络带宽的占用量;
tune.maxrewrite <number>:设定为首部重写或追加而预留的缓冲空间,建议使用 1024 左右的大小;在需要使用更大的空间时,haproxy 会自动增加其值;
tune.rcvbuf.client <number>:设定内核套接字中客户端接收缓冲的大小,单位为字节,强烈推荐使用默认值;
tune.rcvbuf.server <number>:设定内核套接字中服务端接收缓冲的大小,单位为字节,强烈推荐使用默认值;
tune.sndbuf.client:设定内核套接字中客户端发送缓冲的大小,单位为字节,强烈推荐使用默认值;
tune.sndbuf.server:设定内核套接字中服务端发送缓冲的大小,单位为字节,强烈推荐使用默认值;
Debug 相关的参数:
debug:调试模式;
quiet:静谧模式;
超时时长相关的参数:
timeouthttprequest:在客户端建立连接但不请求数据时,关闭客户端连接;
timeout queue:等待最大时长;
timeoutconnect:定义 haproxy 将客户端请求转发至后端服务器所等待的超时时长;
timeout client:客户端非活动状态的超时时长
timeoutserver:客户端与服务器端建立连接后,等待服务器端的超时时长;
timeout http-keep-alive:定义保持连接的超时时长;
timeoutcheck:健康状态监测时的超时时间,过短会误判,过长会资源消耗;
实现访问控制相关的参数:
http-server-close:在使用长连接时,为了避免客户端超时没有关闭长连接,此功能可以使服务器端关闭长连接;
http-request: 七层过滤;
tcp-request content: tcp 层过滤,四层过滤;
其它部分参数说明
balance
balance <algorithm> [ <arguments> ]
balance url_param <param> [check_post [<max_wait>]]
定义负载均衡算法,可用于 defaults、listen 和 backend。
<algorithm> 用于在负载均衡场景中挑选一个 server,其仅应用于持久信息不可用的条件下或需要将一个连接重新派发至另一个服务器时。支持的算法有如下:
roundrobin:基于权重进行轮叫,在服务器的处理时间保持均匀分布时,这是最平衡、最公平的算法。此算法是动态的,这表示其权重可以在运行时进行调整,不过,在设计上,每个后端服务器仅能最多接受 4128 个连接;
static-rr:基于权重进行轮叫,与 roundrobin 类似,但是为静态方法,在运行时调整其服务器权重不会生效;不过,其在后端服务器连接数上没有限制;
leastconn:新的连接请求被派发至具有最少连接数目的后端服务器;在有着较长时间会话的场景中推荐使用此算法,如 LDAP、SQL 等,其并不太适用于较短会话的应用层协议,如 HTTP;此算法是动态的,可以在运行时调整其权重;
source:将请求的源地址进行 hash 运算,并由后端服务器的权重总数相除后派发至某匹配的服务器;这可以使得同一个客户端IP的请求始终被派发至某特定的服务器;不过,当服务器权重总数发生变化时,如某服务器宕机或添加了新的服务器,许多客户端的请求可能会被派发至与此前请求不同的服务器;常用于负载均衡无 cookie 功能的基于 TCP 的协议;其默认为静态,不过也可以使用 hash-type 修改此特性;
uri:对 URI 的左半部分(“问题”标记之前的部分)或整个 URI 进行 hash 运算,并由服务器的总权重相除后派发至某匹配的服务器;这可以使得对同一个 URI 的请求总是被派发至某特定的服务器,除非服务器的权重总数发生了变化;此算法常用于代理缓存或反病毒代理以提高缓存的命中率;需要注意的是,此算法仅应用于HTTP后端服务器场景;其默认为静态算法,不过也可以使用 hash-type 修改此特性;
url_param:通过 <argument> 为 URL 指定的参数在每个 HTTP GET 请求中将会被检索;如果找到了指定的参数且其通过等于号“=”被赋予了一个值,那么此值将被执行 hash 运算并被服务器的总权重相除后派发至某匹配的服务器;此算法可以通过追踪请求中的用户标识进而确保同一个用户 ID 的请求将被送往同一个特定的服务器,除非服务器的总权重发生了变化;如果某请求中没有出现指定的参数或其没有有效值,则使用轮叫算法对相应请求进行调度;此算法默认为静态的,不过其也可以使用 hash-type 修改此特性;
hdr(<name>):对于每个 HTTP 请求,通过 <name> 指定的 HTTP 首部将会被检索;如果相应的首部没有出现或其没有有效值,则使用轮叫算法对相应请求进行调度;其有一个可选选项 use_domain_only,可在指定检索类似 Host 类的首部时仅计算域名部分(比如通过 www.zze.com 来说,仅计算 zze 字符串的 hash 值)以降低 hash 算法的运算量;此算法默认为静态的,不过其也可以使用 hash-type 修改此特性;
rdp-cookie:远程桌面协议使用,用不到;
rdp-cookie(name):远程桌面协议使用,用不到;
bind
bind [<address>]:<port_range> [, ...]
bind [<address>]:<port_range> [, ...] interface <interface>
此指令仅能用于 frontend 和 listen 区段,用于定义一个或几个监听的套接字。
<address>:可选选项,其可以为主机名、IPv4 地址、IPv6 地址或 *;省略此选项、将其指定为 * 或 0.0.0.0时,将监听当前系统的所有 IPv4 地址;
<port_range>:可以是一个特定的 TCP 端口,也可是一个端口范围(如 5005-5010),代理服务器将通过指定的端口来接收客户端请求;需要注意的是,每组监听的套接字 <address:port> 在同一个实例上只能使用一次,而且小于 1024 的端口需要有特定权限的用户才能使用,这可能需要通过 uid 参数来定义;
<interface>:指定物理接口的名称,仅能在 Linux 系统上使用;其不能使用接口别名,而仅能使用物理接口名称,而且只有管理有权限指定绑定的物理接口;
mode
mode { tcp|http|health }
设定实例的运行模式或协议。当实现内容交换时,前端和后端必须工作于同一种模式(一般说来都是 HTTP 模式),否则将无法启动实例。
tcp:实例运行于纯 TCP 模式,在客户端和服务器端之间将建立一个全双工的连接,且不会对 7 层报文做任何类型的检查;此为默认模式,通常用于 SSL、SSH、SMTP 等应用;
http:实例运行于 HTTP 模式,客户端请求在转发至后端服务器之前将被深度分析,所有不与 RFC 格式兼容的请求都会被拒绝;
health:实例工作于 health 模式,其对入站请求仅响应“OK”信息并关闭连接,且不会记录任何日志信息;此模式将用于响应外部组件的健康状态检查请求;目前业讲,此模式已经废弃,因为 tcp 或 http 模式中的 monitor 关键字可完成类似功能;
hash-type
hash-type <method>
定义用于将 hash 码映射至后端服务器的方法;其不能用于 frontend 区段;可用方法有 map-based 和 consistent,在大多数场景下推荐使用默认的 map-based 方法。
map-based:hash 表是一个包含了所有在线服务器的静态数组。其 hash 值将会非常平滑,会将权重考虑在列,但其为静态方法,对在线服务器的权重进行调整将不会生效,这意味着其不支持慢速启动。
此外,挑选服务器是根据其在数组中的位置进行的,因此,当一台服务器宕机或添加了一台新的服务器时,大多数连接将会被重新派发至一个与此前不同的服务器上,对于缓存服务器的工作场景来说,此方法不甚适用。
consistent:hash 表是一个由各服务器填充而成的树状结构;基于 hash 键在 hash 树中查找相应的服务器时,最近的服务器将被选中。此方法是动态的,支持在运行时修改服务器权重,因此兼容慢速启动的特性。
添加一个新的服务器时,仅会对一小部分请求产生影响,因此,尤其适用于后端服务器为cache的场景。不过,此算法不甚平滑,派发至各服务器的请求未必能达到理想的均衡效果,因此,可能需要不时的调整服务器的权重以获得更好的均衡性。
log
log global
log <address> <facility> [<level> [<minlevel>]]
为每个实例启用事件和流量日志,因此可用于所有区段。每个实例最多可以指定两个log参数,不过,如果使用了 log global 且 global 段已经定了两个 log 参数时,多余了 log 参数将被忽略。
global:当前实例的日志系统参数同 global 段中的定义时,将使用此格式;每个实例仅能定义一次 log global 语句,且其没有任何额外参数;
<address>:定义日志发往的位置,其格式之一可以为 <IPv4_address:PORT>,其中的 port 为 UDP 协议端口,默认为 514;格式之二为 Unix 套接字文件路径,但需要留心 chroot 应用及用户的读写权限;
<facility>:可以为 syslog 系统的标准 facility 之一;
<level>:定义日志级别,即输出信息过滤器,默认为所有信息;指定级别时,所有等于或高于此级别的日志信息将会被发送;
maxconn
maxconn <conns>
设定一个前端的最大并发连接数,因此,其不能用于 backend 区段。对于大型站点来说,可以尽可能提高此值以便让 haproxy 管理连接队列,从而避免无法应答用户请求。当然,此最大值不能超出 global 段中的定义。此外,需要留心的是,haproxy 会为每个连接维持两个缓冲,每个缓冲的大小为 8KB,再加上其它的数据,每个连接将大约占用 17KB 的 RAM 空间。这意味着经过适当优化后,有着 1GB 的可用 RAM 空间时将能维护 40000-50000 并发连接。
如果为 <conns> 指定了一个过大值,极端场景下,其最终占据的空间可能会超出当前主机的可用内存,这可能会带来意想不到的结果;因此,将其设定了一个可接受值方为明智决定。其默认为 2000。
default_backend
default_backend <backend>
在没有匹配的 use_backend 规则时为实例指定使用的默认后端,因此,其不可应用于 backend 区段。在 frontend 和 backend 之间进行内容交换时,通常使用 use-backend 定义其匹配规则;而没有被规则匹配到的请求将由此参数指定的后端接收。
<backend>:指定使用的后端的名称;
使用案例:
use_backend dynamic if url_dyn
use_backend static if url_css url_img extension_img
default_backend dynamic
server
server <name> <address>[:port] [param*]
为后端声明一个 server,因此,不能用于 defaults 和 frontend 区段。
<name>:为此服务器指定的内部名称,其将出现在日志及警告信息中;如果设定了 http-send-server-name,它还将被添加至发往此服务器的请求首部中;
<address>:此服务器的的 IPv4 地址,也支持使用可解析的主机名,只不过在启动时需要解析主机名至相应的 IPv4 地址;
[:port]:指定将连接请求所发往的此服务器时的目标端口,其为可选项;未设定时,将使用客户端请求时的同一相端口;
[param*]:为此服务器设定的一系参数;其可用的参数非常多,具体请参考官方文档中的说明,下面仅说明几个常用的参数;
backup:设定为备用服务器,仅在负载均衡场景中的其它 server 均不可用于启用此 server;
check:启动对此 server 执行健康状态检查,其可以借助于额外的其它参数完成更精细的设定,如:
检查方法:
option httpchk
option httpchk <uri>
option httpchk <method> <uri>
option httpchk <method> <uri> <version>:不能用于 frontend 段,例如:
backend https_relay
mode tcp
option httpchk OPTIONS * HTTP/1.1\r\nHost:\ www.zze.xyz
server apache1 192.168.1.1:443 check port 80
使用案例:
server first 172.16.100.7:1080 cookie first check inter 1000
server second 172.16.100.8:1080 cookie second check inter 1000
inter <delay>:设定健康状态检查的时间间隔,单位为毫秒,默认为 2000;也可以使用 fastinter 和 downinter 来根据服务器端状态优化此时间延迟;
rise <count>:设定健康状态检查中,某离线的 server 从离线状态转换至正常状态需要成功检查的次数;
fall <count>:确认 server 从正常状态转换为不可用状态需要检查的次数;
cookie <value>:为指定 server 设定 cookie 值,此处指定的值将在请求入站时被检查,第一次为此值挑选的 server 将在后续的请求中被选中,其目的在于实现持久连接的功能;
maxconn <maxconn>:指定此服务器接受的最大并发连接数;如果发往此服务器的连接数目高于此处指定的值,其将被放置于请求队列,以等待其它连接被释放;
maxqueue <maxqueue>:设定请求队列的最大长度;
observe <mode>:通过观察服务器的通信状况来判定其健康状态,默认为禁用,其支持的类型有 layer4 和 layer7,layer7 仅能用于 http 代理场景;
redir <prefix>:启用重定向功能,将发往此服务器的 GET 和 HEAD 请求均以 302 状态码响应;需要注意的是,在 prefix 后面不能使用 /,且不能使用相对地址,以免造成循环。例如:
server srv1 172.16.100.6:80 redir http://imageserver.zze.com check
weight <weight>:权重,默认为 1,最大值为 256,0 表示不参与负载均衡;
capture request header
capture request header <name> len <length>
捕获并记录指定的请求首部最近一次出现时的第一个值,仅能用于 frontend 和 listen 区段。捕获的首部值使用花括号 {} 括起来后添加进日志中。如果需要捕获多个首部值,它们将以指定的次序出现在日志文件中,并以竖线 | 作为分隔符。
不存在的首部记录为空字符串,最常需要捕获的首部包括在虚拟主机环境中使用的 Host、上传请求首部中的 Content-length 、快速区别真实用户和网络机器人的 User-agent ,以及代理环境中记录真实请求来源的 X-Forward-For。
<name>:要捕获的首部的名称,此名称不区分字符大小写,但建议与它们出现在首部中的格式相同,比如大写首字母。需要注意的是,记录在日志中的是首部对应的值,而非首部名称。
<length>:指定记录首部值时所记录的精确长度,超出的部分将会被忽略。
可以捕获的请求首部的个数没有限制,但每个捕获最多只能记录 64 个字符。为了保证同一个 frontend 中日志格式的统一性,首部捕获仅能在 frontend 中定义。
capture response header
capture response header <name> len <length>
捕获并记录响应首部,其格式和要点同请求首部。
stats enable
启用基于程序编译时默认设置的统计报告,不能用于 frontend 区段。只要没有另外的其它设定,它们就会使用如下的配置:
stats uri : /haproxy?stats
stats realm : "HAProxy Statistics"
stats auth : no authentication
stats scope : no restriction
尽管 stats enable 一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期后果。下面是一个配置案例。
backend public_www
server websrv1 172.16.100.11:80
stats enable
stats hide-version
stats scope .
stats uri /haproxyadmin?stats
stats realm Haproxy\ Statistics
stats auth statsadmin:password
stats auth statsmaster:password
stats hide-version
stats hide-version
启用统计报告并隐藏 HAProxy 版本报告,不能用于 frontend 区段。默认情况下,统计页面会显示一些有用信息,包括 HAProxy 的版本号,然而,向所有人公开 HAProxy 的精确版本号是非常有风险的,因为它能帮助恶意用户快速定位版本的缺陷和漏洞。
尽管 stats hide-version 一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期后果。具体请参照 stats enable 一节的说明。
stats realm
stats realm <realm>
启用统计报告并高精认证领域,不能用于 frontend 区段。haproxy 在读取 realm 时会将其视作一个单词,因此,中间的任何空白字符都必须使用反斜线进行转义。此参数仅在与 stats auth 配置使用时有意义。
<realm>:实现 HTTP 基本认证时显示在浏览器中的领域名称,用于提示用户输入一个用户名和密码。
尽管 stats realm 一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期后果。具体请参照 stats enable 一节的说明。
stats scope
stats scope { <name> | "." }
启用统计报告并限定报告的区段,不能用于 frontend 区段。当指定此语句时,统计报告将仅显示其列举出区段的报告信息,所有其它区段的信息将被隐藏。如果需要显示多个区段的统计报告,此语句可以定义多次。需要注意的是,区段名称检测仅仅是以字符串比较的方式进行,它不会真检测指定的区段是否真正存在。
<name>:可以是一个 listen、frontend 或 backend 区段的名称,而 . 则表示 stats scope 语句所定义的当前区段。
尽管 stats scope 一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期后果。下面是一个配置案例。
backend private_monitoring
stats enable
stats uri /haproxyadmin?stats
stats refresh 10s
stats auth
stats auth <user>:<passwd>
启用带认证的统计报告功能并授权一个用户帐号,其不能用于 frontend 区段。
<user>:授权进行访问的用户名;
<passwd>:此用户的访问密码,明文格式;
此语句将基于默认设定启用统计报告功能,并仅允许其定义的用户访问,其也可以定义多次以授权多个用户帐号。可以结合 stats realm 参数在提示用户认证时给出一个领域说明信息。在使用非法用户访问统计功能时,其将会响应一个 401 Forbidden 页面。
其认证方式为 HTTP Basic 认证,密码传输会以明文方式进行,因此,配置文件中也使用明文方式存储以说明其非保密信息故此不能相同于其它关键性帐号的密码。
尽管 stats auth 一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期后果。
stats admin
stats admin { if | unless } <cond>
在指定的条件满足时启用统计报告页面的管理级别功能,它允许通过 web 接口启用或禁用服务器,不过,基于安全的角度考虑,统计报告页面应该尽可能为只读的。此外,如果启用了 HAProxy 的多进程模式,启用此管理级别将有可能导致异常行为。
目前来说,POST 请求方法被限制于仅能使用缓冲区减去保留部分之外的空间,因此,服务器列表不能过长,否则,此请求将无法正常工作。因此,建议一次仅调整少数几个服务器。下面是两个案例,第一个限制了仅能在本机打开报告页面时启用管理级别功能,第二个定义了仅允许通过认证的用户使用管理级别功能。
backend stats_localhost
stats enable
stats admin if LOCALHOST
backend stats_auth
stats enable
stats auth haproxyadmin:password
stats admin if TRUE
option httplog
option httplog [ clf ]
启用记录HTTP请求、会话状态和计时器的功能。
clf:使用 CLF 格式来代替 HAProxy 默认的 HTTP 格式,通常在使用仅支持 CLF 格式的特定日志分析器时才需要使用此格式。
默认情况下,日志输入格式非常简陋,因为其仅包括源地址、目标地址和实例名称,而 option httplog 参数将会使得日志格式变得丰富许多,其通常包括但不限于 HTTP 请求、连接计时器、会话状态、连接数、捕获的首部及 cookie、frontend、backend 及服务器名称,当然也包括源地址和端口号等。
option logasap
option logasap
no option logasap
启用或禁用提前将 HTTP 请求记入日志,不能用于 backend 区段。
默认情况下,HTTP 请求是在请求结束时进行记录以便能将其整体传输时长和字节数记入日志,由此,传较大的对象时,其记入日志的时长可能会略有延迟。option logasap 参数能够在服务器发送 complete 首部时即时记录日志,只不过,此时将不记录整体传输时长和字节数。此情形下,捕获 Content-Length 响应首部来记录传输的字节数是一个较好选择。
下面是一个例子:
listen http_proxy 0.0.0.0:80
mode http
option httplog
option logasap
log 172.16.100.9 local2
option forwardfor
option forwardfor [ except <network> ] [ header <name> ] [ if-none ]
允许在发往服务器的请求首部中插入 X-Forwarded-For 首部。
<network>:可选参数,当指定时,源地址为匹配至此网络中的请求都禁用此功能。
<name>:可选参数,可使用一个自定义的首部,如 X-Client 来替代 X-Forwarded-For。有些独特的 Web 服务器的确需要用于一个独特的首部。
if-none:仅在此首部不存在时才将其添加至请求报文中。
HAProxy 工作于反向代理模式,其发往服务器的请求中的客户端 IP 均为 HAProxy 主机的地址而非真正客户端的地址,这会使得服务器端的日志信息记录不了真正的请求来源,X-Forwarded-For 首部则可用于解决此问题。HAProxy 可以向每个发往服务器的请求上添加此首部,并以客户端 IP 为其 value。
需要注意的是,HAProxy 工作于隧道模式,其仅检查每一个连接的第一个请求,因此,仅第一个请求报文被附加此首部。如果想为每一个请求都附加此首部,请确保同时使用了 option httpclose、option forceclose 和 option http-server-close 几个 option。
下面是一个例子。
frontend www
mode http
option forwardfor except 127.0.0.1
errorfile
errorfile <code> <file>
在用户请求不存在的页面时,返回一个页面文件给客户端而非由 haproxy 生成的错误代码;可用于所有段中。
<code>:指定对 HTTP 的哪些状态码返回指定的页面;这里可用的状态码有 200、400、403、408、500、502、503 和 504;
<file>:指定用于响应的页面文件;
例如:
errorfile 400 /etc/haproxy/errorpages/400badreq.http
errorfile 403 /etc/haproxy/errorpages/403forbid.http
errorfile 503 /etc/haproxy/errorpages/503sorry.http
errorloc 和 errorloc302
errorloc <code> <url>
errorloc302 <code> <url>
请求错误时,返回一个 HTTP 重定向至某 URL 的信息;可用于所有配置段中。
<code>:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有 200、400、403、408、500、502、503 和 504;
<url>:Location 首部中指定的页面位置的具体路径,可以是在当前服务器上的页面的相对路径,也可以使用绝对路径;需要注意的是,如果URI自身错误时产生某特定状态码信息的话,有可能会导致循环定向;
需要留意的是,这两个关键字都会返回 302 状态吗,这将使得客户端使用同样的 HTTP 方法获取指定的 URL,对于非 GET 方法的场景(如 POST)来说会产生问题,因为返回客户的 URL 是不允许使用 GET 以外的其它方法的。如果的确有这种问题,可以使用 errorloc303 来返回 303 状态码给客户端。
errorloc303
errorloc303 <code> <url>
请求错误时,返回一个 HTTP 重定向至某 URL 的信息给客户端;可用于所有配置段中。
<code>:指定对 HTTP 的哪些状态码返回指定的页面;这里可用的状态码有 400、403、408、500、502、503 和 504;
<url>:Location 首部中指定的页面位置的具体路径,可以是在当前服务器上的页面的相对路径,也可以使用绝对路径;需要注意的是,如果 URI 自身错误时产生某特定状态码信息的话,有可能会导致循环定向;
例如:
backend webserver
server 172.16.100.6 172.16.100.6:80 check maxconn 3000 cookie srv01
server 172.16.100.7 172.16.100.7:80 check maxconn 3000 cookie srv02
errorloc 403 /etc/haproxy/errorpages/sorry.htm
errorloc 503 /etc/haproxy/errorpages/sorry.htm
千万不要被上面大篇幅的参数吓到,其实很多参数我们平时是不会改动的,这里列出来主要是方便以后查阅~~~
ACL 条件测试
HAProxy 的 ACL 用于实现基于请求报文的首部、响应报文的内容或其它的环境状态信息来做出转发决策,这大大增强了其配置弹性。 其配置法则通常分为两步,首先去定义 ACL,即定义一个测试条件,而后在条件得到满足时执行某特定的动作,如阻止请求或转发至某特定的后端。
定义 ACL 的语法格式如下:
acl <aclname> <criterion> [flags] [operator] <value> ...
<aclname>:ACL 名称,区分字符大小写,且其只能包含大小写字母、数字、-(连接线)、_(下划线)、.(点号)和 :(冒号),HAProxy 中,acl 可以重名,这可以把多个测试条件定义为一个共同的 acl;
<criterion>:测试标准,即对什么信息发起测试;测试方式可以由 [flags] 指定的标志进行调整;而有些测试标准也可以需要为其在 <value> 之前指定一个操作符 [operator];
[flags]:目前 HAProxy 的 acl 支持的标志位有 3 个:
-i:不区分 <value> 中模式字符的大小写;
-f:从指定的文件中加载模式;
--:标志符的强制结束标记,在模式中的字符串像标记符时使用;
<value>:acl 测试条件支持的值有以下四类:
整数或整数范围:如 1024:65535 表示从 1024 至 65535;仅支持使用正整数(如果出现类似小数的标识,其为通常为版本测试),且支持使用的操作符有 5 个,分别为 eq、ge、gt、le 和 lt;
字符串:支持使用 -i 以忽略字符大小写,支持使用 \ 进行转义;如果在模式首部出现了 -i,可以在其之前使用 -- 标志位;
正则表达式:其机制类同字符串匹配;
IP 地址及网络地址;
常用的测试标准:
be_sess_rate <integer>
be_sess_rate(backend) <integer>
用于测试指定的 backend 上会话创建的速率(即每秒创建的会话数)是否满足指定的条件;常用于在指定 backend 上的会话速率过高时将用户请求转发至另外的 backend,或用于阻止攻击行为。例如:
backend dynamic
mode http
acl being_scanned be_sess_rate gt 50
redirect location /error_pages/denied.html if being_scanned
fe_sess_rate <integer>
fe_sess_rate(frontend) <integer>
用于测试指定的 frontend(或当前 frontend)上的会话创建速率是否满足指定的条件;常用于为 frontend 指定一个合理的会话创建速率的上限以防止服务被滥用。例如下面的例子限定入站邮件速率不能大于 50 封/秒,所有在此指定范围之外的请求都将被延时 50 毫秒。
frontend mail
bind :25
mode tcp
maxconn 500
acl too_fast fe_sess_rate ge 50
tcp-request inspect-delay 50ms
tcp-request content accept if ! too_fast
tcp-request content accept if WAIT_END
hdr <string>
hdr(header) <string>
用于测试请求报文中的所有首部或指定首部是否满足指定的条件;指定首部时,其名称不区分大小写,且在括号 () 中不能有任何多余的空白字符。测试服务器端的响应报文时可以使用 shdr()。例如下面的例子用于测试首部 Connection 的值是否为 close。
hdr(Connection) -i close
method <string>
测试 HTTP 请求报文中使用的方法。
path_beg <string>
用于测试请求的 URI 是否以 <string> 指定的模式开头。下面的例子用于测试 URI 是否以 /static、/images、/javascript 或 /stylesheets 头。
acl url_static path_beg -i /static /images /javascript /stylesheets
path_end <string>
用于测试请求的 URI 是否以 <string> 指定的模式结尾。例如,下面的例子用户测试 URI 是否以 jpg、gif、png、css 或 js 结尾。
acl url_static path_end -i .jpg .gif .png .css .js
url_beg <string>
用于测试请求的 URL 是否以 <string> 指定的模式开头。下面的例子用于测试 URL 是否以 http 或 https 开头。
acl web_request url_beg -i http https
url_end <string>
用于测试请求的 URL 是否以 <string> 指定的模式结尾。下面的例子用于测试 URL 是否以 php、jsp、asp 结尾。
acl url_dynamic url_end -i .php .jsp .asp
path_reg <string>
用于测试请求的 URI 是否匹配指定的正则表达式。
url_reg <reg>
用于测试请求的 URL 是否匹配指定的正则表达式。
hdr_beg <string>
用于测试请求报文的指定首部的开头部分是否符合 <string> 指定的模式。例如,下面的例子用于测试请求是否为提供静态内容的主机 img、video、download 或 ftp。
acl host_static hdr_beg(host) -i img. video. download. ftp.
hdr_end <string>
用于测试请求报文的指定首部的结尾部分是否符合 <string> 指定的模式。例如,下面的例子用于测试请求的目标端口是否是 80 或 443。
acl host_static hdr_end(Remote Address) -i :80 :443
使用
准备如下主机:
主机名 | 主机 IP | 描述 |
---|---|---|
ha | 10.0.1.200/172.16.1.200 | 负载主机 |
web1 | 172.16.1.201 | Web 主机 |
web2 | 172.16.1.202 | Web 主机 |
负载均衡 web 服务
1、在 web1 和 web2 主机上提供 http 服务,在 ha 主机访问效果如下:
$ curl 172.16.1.201
from 201
$ curl 172.16.1.202
from 202
2、修改 ha 主机配置文件如下:
$ cat /etc/haproxy/haproxy.cfg
global
log 127.0.0.1 local2
chroot /var/lib/haproxy
pidfile /var/run/haproxy.pid
maxconn 4000
user haproxy
group haproxy
daemon
stats socket /var/lib/haproxy/stats
defaults
mode http
log global
option httplog
option dontlognull
option http-server-close
option forwardfor except 127.0.0.0/8
option redispatch
retries 3
timeout http-request 10s
timeout queue 1m
timeout connect 10s
timeout client 1m
timeout server 1m
timeout http-keep-alive 10s
timeout check 10s
maxconn 3000
frontend main *:80
default_backend websrvs
backend websrvs
balance roundrobin
server web01 172.16.1.201:80 check
server web02 172.16.1.202:80 check
3、启动 haproxy 服务:
$ systemctl start haproxy
4、访问 ha 主机,效果如下:
$ curl 10.0.1.200
from 201
$ curl 10.0.1.200
from 202
5、测试一下 haproxy 的健康检测功能,停止 web2 主机的 http 服务,再次访问 ha 主机会发现所有的响应都是由 web1 主机发出,效果如下:
$ curl 10.0.1.200
from 201
$ curl 10.0.1.200
from 201
基于 cookie 的会话绑定
直接修改上例「负载均衡 web 服务」中 ha 主机 haproxy 配置文件的 backend
部分如下:
$ cat /etc/haproxy/haproxy.cfg
...
backend websrvs
# 这里 server_id 是自定义的一个 cookie key,其值为具体调度到的 server 中通过 cookie 参数设置的值
cookie server_id insert nocache
balance roundrobin
server web01 172.16.1.201:80 check cookie web1
server web02 172.16.1.202:80 check cookie web2
重启 haproxy 服务,接下来使用浏览器访问 ha 主机,查看响应头会发现设置了我们指定的 cookie:
如上则说明将当前浏览器的会话绑定到了 web1 主机,后续该浏览器同一个会话的所有请求都将会被调度到 web1 主机。
启用状态监控页
依旧是基于上例「负载均衡 web 服务」进行修改,在 ha 主机 haproxy 配置文件中添加如下 listen
块:
listen statistics
bind *:8080
stats enable
stats hide-version
stats uri /haproxyadmin
重启 haproxy 服务,使用浏览器访问 ha 主机,url 为 http://10.0.1.200:8080/haproxyadmin
,效果如下:
还可以给状态页加上认证功能,修改上面的 listen
部分配置如下:
listen statistics
bind *:8080
stats enable
stats hide-version
stats uri /haproxyadmin
stats realm "HAProxy\ Statistics"
stats auth admin:123
重启 haproxy 服务,刷新浏览器效果如下:
还可以指定在认证成功时开启管理模式,修改配置如下:
listen statistics
bind *:8080
stats enable
stats hide-version
stats uri /haproxyadmin
stats realm "HAProxy\ Statistics"
stats auth admin:123
# 如果上面的 auth 认证成功,则启用管理模式
stats admin if TRUE
重启 haproxy 服务,刷新浏览器效果如下:
可以看到此时后端主机行出现了勾选框,我们可以选定后端主机,然后通过下拉框选定我们需要执行的操作(如上线、下线等),点击一下 Apply
就可以直接控制后端主机啦~~~
动静分离实例
1、在 web1、web2 主机准备如下资源提供访问:
$ curl 10.0.1.201/index.jsp
from 201 jsp page
$ curl 10.0.1.202/index.jsp
from 202 jsp page
$ curl 10.0.1.201/test.js
from 201 javascript file
$ curl 10.0.1.202/test.js
from 202 javascript file
2、修改 ha 主机的 HAProxy 配置文件如下:
global
log 127.0.0.1 local2
chroot /var/lib/haproxy
pidfile /var/run/haproxy.pid
maxconn 4000
user haproxy
group haproxy
daemon
stats socket /var/lib/haproxy/stats
defaults
mode http
log global
option httplog
option dontlognull
option http-server-close
option forwardfor except 127.0.0.0/8
option redispatch
retries 3
timeout http-request 10s
timeout queue 1m
timeout connect 10s
timeout client 1m
timeout server 1m
timeout http-keep-alive 10s
timeout check 10s
maxconn 3000
frontend main *:80
mode http
log global
option httpclose
option logasap
option dontlognull
capture request header Host len 20
capture request header Referer len 60
acl url_static path_beg -i /static /images /javascript /stylesheets
acl url_static path_end -i .jpg .jpeg .gif .png .css .js
use_backend static_servers if url_static
default_backend dynamic_servers
backend static_servers
balance roundrobin
server web01 172.16.1.201:80 check
backend dynamic_servers
balance roundrobin
server web02 172.16.1.202:80 check
3、重启 HAProxy,测试访问 HA 主机的 .jsp
和 .js
页面:
$ curl 10.0.1.200/index.jsp
from 202 jsp page
$ curl 10.0.1.200/test.js
from 201 javascript file
测试访问会发现,所有后缀为 .jsp
的请求都会被 HAProxy 调度至 web2 主机,所有后缀为 .js
的请求都会被 HAProxy 调度至 web1 主机,即实现了动静分离~~
启用日志功能
查看一下 haproxy 默认的日志配置项:
global
log 127.0.0.1 local2
...
可以看出,haproxy 的日志默认是通过 IP 地址的方式发送给指定主机然后通过指定的日志设施记录,所以我们需要启用对应主机的 rsyslog 让其监听在套接字上。
这里以将日志保存到本机为例,修改 rsyslog 如下配置项:
$ vim /etc/rsyslog.conf
# 监听在 udp 514 端口
$ModLoad imudp
$UDPServerRun 514
# 指定 local2 设施保存日志的文件路径
local2.* /var/log/haproxy.log
重启 rsyslog 和 haproxy,测试访问,查看日志文件:
$ systemctl restart rsyslog haproxy
$ tailf /var/log/haproxy.log
Apr 14 15:01:57 localhost haproxy[1764]: 10.0.1.1:59898 [14/Apr/2020:15:01:57.349] main websrvs/web01 0/0/0/2/2 200 149 - - ---- 1/1/0/1/0 0/0 "GET / HTTP/1.1"
Apr 14 15:01:57 localhost haproxy[1764]: 10.0.1.1:59900 [14/Apr/2020:15:01:57.734] main websrvs/web02 0/0/0/1/1 200 149 - - ---- 1/1/0/1/0 0/0 "GET / HTTP/1.1"
Apr 14 15:01:58 localhost haproxy[1764]: 10.0.1.1:59901 [14/Apr/2020:15:01:58.086] main websrvs/web01 0/0/0/0/0 200 149 - - ---- 1/1/0/0/0 0/0 "GET / HTTP/1.1"
参考:
评论区