关于某业务线域名未及时备案导致的脱机故障与报告

域名没有备案,主要原因与业务线团队沟通是因为法人变更流程没完成,导致无法备案。 域名未备案,阿里云多次提醒后导致的系统故障分析定位与应急处理。

关于某系统阵发性网络问题的处理。

因Linux内核优化带来的影藏很深的阵发性网络问题,记录net.ipv4.tcp_timestamps与net.ipv4.tcp_tw_recycle两个内核开启的状态,对高并发的Linux高可用调度器节点,与负载均衡节点带来的影响。这两个参数默认配合起来是抵御DDOS,与CC洪水攻击的,但对同一个公网IP的客户端请求带来巨大的网络影响,记录了故障的排查过程,问题复现,抓包分析,问题定位与问题处理的过程。

复盘kubernetes证书到期故障状与集群快速恢复

提供kubernetes复盘故障状态脚本快速修复方式、非故障官方修复方式、脚本修复方式;