记一次nginx配置不当引发的499与failover机制失效问题

2024/03/02 · admin

nginx 499在服务端推送流量高峰期长期以来都是存在的，间或还能达到告警阈值触发一小波告警，但主观上一直认为499是客户端主动断开，可能和推送高峰期的用户打开推送后很快杀死app有关，没有进一步探究问题根源。
然而近期在非高峰期也存在499超过告警阈值的偶发情况，多的时候一天几次，少的时候则几天一次，持续一般也就数分钟，并且该类告警一般集中于一台api机器，与推送高峰时多台机器同时499告警明显不同，不由得脑海中升起了问号，经过和小伙伴的共同探究，最后发现之前对于499是客户端主动断开因而和服务端关系不大的想当然认知是错误的，这里记录一下。,499其实并不是HTTP协议的标准状态码，而是nginx自定义的状态码，并没有在nginx官方文档中找到对该状态码的明确说明，这里引用一个感觉比较专业的博文上的解释：,大意是499一般意味着客户端在HTTP请求还在处理时主动结束的处理过程–断开了对应的网络连接，499一般意味着客户端侧发生了一些问题，和服务端没有关系。
以下则是nginx源码中的注释说明：,意思是nginx引入了自定义的code 499来记录客户端断开连接时nginx还没有处理完其请求的场景。
回想多年以前首次碰到499场景时在网络搜索资料也是看到了类似的解答，所以一直认为499和服务端关系不大，应该都是客户端的原因。,曾经遇到过一个搜索联想接口，其499比例比其他api高上几十倍–一骑绝尘，单看该api基本上长期位于告警阈值之上，也追踪过其具体异常原因，最后联合客户端小伙伴给出了结论：搜索联想接口的499比例偏高时正常的，因为：,所以搜索联想api虽然有异于普通api的高比例499，却是完全合理的，客户端要负主动断开连接的责任，但是并没有做错任何事情，服务端也没有任何问题。,另一个之前认为客户端行为导致499的例子是推送高峰，部分用户在通过推送打开app后可能会秒杀app，而推送高峰时期一般服务端压力比较大本身响应就会比平峰时期慢一些，此时有些api请求可能还正在进行中，此时用户杀死了app–app含冤而死无能为力–对应连接自然就被OS断开回收了，于是也导致了499，这种场景下服务端也是没有问题的。,通过上面两个例子乍看下去，499都是客户端侧的原因，无论是其主动还是被动行为，也正是这两个例子加深了博主心中对于499服务端应该无责任的意识。
总结服务端出错可能导致的nginx错误码，主要应该是以下几个场景：,所以无论是代码执行出错、服务挂了、服务过于繁忙、请求处理耗时过长导致HTTP请求失败，都是返回的5XX，压根不会触发499。
一般情况来说确实是这样的，但是这次新出现的平峰499并非一般情况，在网上查找资料时时有人提出过nginx 499可能是服务端处理耗时过长导致客户端超时后主动断开，但是这种情况按照上面的描述不应该属于场景4– upstream处理请求时间过长，nginx返回504才对吗？
所以看上去服务端处理耗时过长既可能导致客户端主动断开的499也可能导致nginx返回Gateway Timeout的504，那导致这个区别的关键因素是什么？
简单来说就是如果客户端先断开被nginx检测到那就是499，而如果upstream 耗时过长超时先被nginx判定就是504，所以关键就是nginx对于upstream 超时的时间设置，捋到这里赶紧去看了下nginx的超时相关配置，嗯，没有明确配置相关超时时间–！,由于api与nginx是通过uwsgi协议通信，因此关键的超时配置参数如下：,在未明确指定的情况下其超时时间均默认为60s，简单来说（实际情况更复杂一些但这里不进一步探讨）只有在upstream处理请求耗时超过60s的情况下nginx才能判定其Gateway Timeout 并按照504处理，然而客户端设置的HTTP请求超时时间其实只有15s–这其中还包括外网数据传输的时间，于是问题来了：每一个服务端处理耗时超过15s的请求，nginx由于还没达到60s的超时阈值不会判定504，而客户端则会由于超过本地的15s超时时间直接断开连接，nginx于是就会记录为499。
通过回查nginx log，非高峰期的499告警时段确实是存在单台upstream 请求处理缓慢，耗时过长，于是可能导致：,上面已经知道近期新出现的单台upstream 偶发499是由于响应缓慢引起的，既然是由于客户端超时时间(15s)远小于nginx upstream超时时间(60s)引起的，这应该属于一个明显的配置不当，会导致三个明显的问题：,那是不是把客户端超时时间调大？或者把nginx upstream超时时间调小解决呢？
调大客户端超时时间当然是不合理的，任何用户请求15s还未收到响应肯定是有问题的，所以正确的做法应该是调小upstream的超时时间，一般来说服务端对于客户端请求处理时间应该都是在数十、数百ms之间，超过1s就已经属于超长请求了，所以不但默认的60s不行，客户端设置的15s也不能用于upstream的超时判定。
最终经过综合考虑服务端各api的耗时情况，先敲定了一个upstream 5s的超时时间配置–由于之前没有经验首次修改步子不迈太大，观察一段时间后继续调整，这样做已经足以很大程度解决以上的3个问题：,在网上查找资料时还有网友提出解除nginx 499问题的一个思路是设置proxy_ignore_client_abort参数，该参数默认为off，将其设置为on 后，对于客户端主动断开请求的情况，nginx会ignore而以upstream实际返回的状态为准，nginx官方文档说明如下：,但是在客户端主动断开连接时，设置这个参数的意义除了使nginx log中记录的状态码完全按照upstream返回确定，而非表示客户端断连的499之外，对于实际问题解决完全没有任何帮助，感觉颇有把头埋进沙子的鸵鸟风格，不知道这个参数设置到底会有什么实用的场景。,这是个好问题，这个问题是近期才出现的，在解决了上面说的nginx错配问题后尝试排查这个问题，从现象上看应该是某些特定请求触发了upsteam CPU飙升，响应缓慢后进一步影响了后续请求的处理，最终导致所有请求响应缓慢触发客户端499。
在nginx错配问题解决后，再次出现这种单台upstream缓慢超时情况后，nginx会很快通过failover摘除掉问题upstream避免情况进一步恶化，而对于首次访问问题upstream超时的GET请求也会backup转发至其他可用upstream处理后返回，已经很大程度上降低了此类异常情况的影响。
最终，修正配置后单upstream的偶发异常会以几天一次的频率触发部分POST api的少量504阈值告警，其问题的根本原因还在探寻中。,人生有太多错误的想当然，nginx 499一般是客户端责任便是一个例证，对于线上长期存在的少量异常告警，还是要怀有一丝敬畏之心，小心温水煮青蛙，在时间允许的情况下多探究、多思考。,转载请注明出处，原文地址：https://www.cnblogs.com/AcAc-t/p/nginx_499_and_504_for_uwsgi.html,https://www.belugacdn.com/499-error-code/,https://juejin.cn/post/6844903876315873293http://nginx.org/en/docs/,http/ngx_http_uwsgi_module.html#uwsgi_read_timeout,https://www.cnblogs.com/AcAct/p/nginx_499_and_504_for_uwsgi.html,http://nginx.org/en/docs/http/ngx_http_upstream_module.html,http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_ignore_client_abort

记一次nginx配置不当引发的499与failover机制失效问题

相关文章

最新评论

最近发表

网站分类

文章归档