随着业务量的增长,业务服务器网络压力不断增大,查看后端服务器网络连接状态,发现TIME_WAIT状态连接巨多,TIME_WAIT 占用大量的连接端口不释放,影响业务服务响应速度。同时大量的每个TCP连接都各自有个数据结构,叫TCP Control Block.Time_wait的时候这个数据结构没有被释放。所以当有太多的TCP连接时,内存可能会被占用很多。

网络密集型后台服务器,网络连接状态:

av.com                                   #    av.com              

TIME_WAIT       47144                    #    TIME_WAIT       45920

SYN_SENT        1                        #    SYN_SENT        1    

ESTABLISHED     104                      #    ESTABLISHED     94  

LISTEN          7                        #    LISTEN          7    

av.com                                   #    av.com              

TIME_WAIT       45670                    #    TIME_WAIT       48396

ESTABLISHED     102                      #    ESTABLISHED     99  

LISTEN          7                        #    LISTEN          7    

av.com                                   #    av.com

TIME_WAIT       45671                    #    TIME_WAIT       46268

SYN_SENT        2                        #    ESTABLISHED     100  

ESTABLISHED     93                       #    LISTEN          7    

LISTEN          7             

      超过三四万。这个时候,我们需要修改 linux kernel 的 tcp time wait的时间,有个 可以调整 /etc/sysctl.conf网络控制相关的参数,网上资料很多。

      但是修改内核参数效果甚微。经过测试高并发的服务器调整内核参数,我们这边业网络环境,tcp time_wait 能降低%10左右,后期业务压力不断攀升,内核参数优化后的服务器tcp time_wait 会再次爬到一个高点,如上图。

      这时该如何解决问题那? 先看一下time_wait 在什么环境下会生成?

            

          TCP结束的过程如下:

Server                             Client

-------------- FIN -------------->  server: fin_wait_1

<------------- ACK --------------- client: close_wait  server:fin_wait_2

<------------- FIN  --------------- client发出fin之后就关闭

-------------- ACK ------------->  server发出ack后进入time_wait状态;

        Time_Wait的默认时间是2倍的MLS,MLS(Maximum Segment Lifetime)是TCP片在网上的最长存活时间,它的作用和IP数据包的TTL类似。 主要作用是保证关闭的TCP端口不立即被使用。因为当网络存在延迟时,可能当某个端口被关闭后,网络中还有一些重传的TCP片在发向这个端口,如果这个端口立即建立新的TCP连接,则可能会有影响。所以使用2倍的MSL时间来限制这个端口立即被使用。

 查询相关资料,内核中一个宏定义,在 $KERNEL/include/net/tcp.h里面,这个宏是真正控制 TCP TIME_WAIT 状态的超时时间的。内容如下:

       #define TCP_TIMEWAIT_LEN (60*HZ)     

 修改这个宏定义数值设置,根据我们的测试,常用的值有以下三种:30秒,1分钟,2分钟,可以根据业务实际情况进行实测,我们这边网络压力比较大,通过压测最终确定设置为 10 秒,也就是把上面的修改为:

           #define TCP_TIMEWAIT_LEN (10*HZ)

然后重新编译内核,重启系统即可发现短连接造成的TIME_WAIT状态倍数级下降,我们实测效果如下:

  

内核编译升级参考:  

优化系统内核参数主机       │ 内核编译优化主机

av.com (主机名)    │av.com    (主机名)       

TIME_WAIT       46366      │TIME_WAIT       9419

ESTABLISHED     99         │FIN_WAIT1       3   

LISTEN          7          │ESTABLISHED     118 

av.com    │LISTEN          7   

TIME_WAIT       46125      │av.com              

FIN_WAIT1       1          │TIME_WAIT       8950

SYN_SENT        1          │ESTABLISHED     105 

ESTABLISHED     99         │LISTEN          7   

LISTEN          7          │av.com              

av.com                     │TIME_WAIT       9668

TIME_WAIT       46591      │ESTABLISHED     114 

ESTABLISHED     101        │LISTEN          7   

LISTEN          7          │av.com              

av.com                     │TIME_WAIT       9224

TIME_WAIT       44307      │FIN_WAIT1       1   

ESTABLISHED     95         │ESTABLISHED     104 

LISTEN          7          │LISTEN          7   

av.com                     │av.com              

TIME_WAIT       46679      │TIME_WAIT       9763

ESTABLISHED     99         │FIN_WAIT1       2   

LISTEN          7          │ESTABLISHED     116 

av.com                     │LISTEN          7   

TIME_WAIT       46833      │av.com              

SYN_SENT        1          │TIME_WAIT       9173

ESTABLISHED     99         │FIN_WAIT1       1   

LISTEN          7          │ESTABLISHED     103 

av.com                     │SYN_RECV        1   

TIME_WAIT       45555      │LISTEN          7   

SYN_SENT        3          │av.com              

ESTABLISHED     104        │TIME_WAIT       9598

LISTEN          7          │ESTABLISHED     117 

av.com                     │LISTEN          7   

TIME_WAIT       45214      │av.com              

ESTABLISHED     96         │TIME_WAIT       9315

LISTEN          7          │SYN_SENT        1   

av.com                     │ESTABLISHED     106 

TIME_WAIT       46498      │LISTEN          7   

SYN_SENT        1          │av.com              

ESTABLISHED     93         │TIME_WAIT       9524

LISTEN          7          │ESTABLISHED     116 

av.com                     │LISTEN          7   

TIME_WAIT       46720      │av.com              

SYN_SENT        1          │TIME_WAIT       9110

ESTABLISHED     95         │ESTABLISHED     104 

LISTEN          7          │LISTEN          7  

同样的网路压力情况下,优化编译后的内核 TIME_WAIT  降低接近5倍,效果很显著。