记一次经历的网络故障
7885

今天凌晨(2025 年 8 月 20 日),在配置邮箱服务器时,需要申请安装 SSL 证书,怎么都连不上证书服务器。

具体如下(信息已脱敏):

#可以 Ping 通
[root@1 ~]# ping acme-v02.api.letsencrypt.org
PING ca80a1adb12a4fbdac5ffcbc944e9a61.pacloudflare.com (172.65.32.248) 56(84) bytes of data.
64 bytes from 172.65.32.248 (172.65.32.248): icmp_seq=1 ttl=45 time=207 ms
64 bytes from 172.65.32.248 (172.65.32.248): icmp_seq=2 ttl=45 time=207 ms
64 bytes from 172.65.32.248 (172.65.32.248): icmp_seq=3 ttl=45 time=207 ms
64 bytes from 172.65.32.248 (172.65.32.248): icmp_seq=4 ttl=45 time=207 ms
--- ca80a1adb12a4fbdac5ffcbc944e9a61.pacloudflare.com ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3004ms
rtt min/avg/max/mdev = 207.125/207.156/207.209/0.323 ms

#curl连不上,而且是主动拒绝连接
[root@1 ~]# curl -v https://acme-v02.api.letsencrypt.org/directory
*   Trying 172.65.32.248...
* TCP_NODELAY set
* connect to 172.65.32.248 port 443 failed: Connection refused
*   Trying 2606:4700:60:0:f53d:5624:85c7:3a2c...
* TCP_NODELAY set
* Immediate connect fail for 2606:4700:60:0:f53d:5624:85c7:3a2c: Network is unreachable
*   Trying 2606:4700:60:0:f53d:5624:85c7:3a2c...
* TCP_NODELAY set
* Immediate connect fail for 2606:4700:60:0:f53d:5624:85c7:3a2c: Network is unreachable
* Failed to connect to acme-v02.api.letsencrypt.org port 443: Connection refused
* Closing connection 0
curl: (7) Failed to connect to acme-v02.api.letsencrypt.org port 443: Connection refused

#telent也连不上443 端口
[root@1 ~]# telnet 172.65.32.248 443
Trying 172.65.32.248...
telnet: connect to address 172.65.32.248: Connection refused

后面发了工单:

当时已经困的不行了,以为是阿里云抽风了,自签名一张证书上传上去就睡觉去了。第二天刷新闻才发现,原来整个国内全被临时封锁约 1 小时左右。

搜集到的通报如下:

【中国网络故障提示】自北京时间 2025年8月20日0:36开始,中国往海外方向的任何443端口流量被完全阻断,此阻断导致访问异常,我们目前正在进行监控,由于不可抗力原因,此问题无法由我们侧进行修复,需要等待运营商层进一步修复。

目前此错误规则配置导致了包括苹果、微软等多个跨国公司网站出现影响,请耐心等待修复。

2025 年 8 月 20 日 00:34 至 01:48(北京时间 UTC+8)左右,中国防火墙 (GFW) 表现出异常行为,无条件注入伪造的 TCP RST+ACK 数据包,中断 TCP 端口 443 上的所有连接。这一事件导致中国与世界其他地区之间的互联网连接受到严重干扰。
本报告记录了我们对这一暂时性、广泛阻塞事件的测量和分析。我们的主要发现是:

  1. 无条件的 RST+ACK 注入在 TCP 端口 443 上,但不在其他常见端口(如 22、80、8443)上。

  2. 无条件的 RST+ACK 注射破坏了往返中国的连接,但触发机制是不对称的。对于来自中国境内的流量,来自客户端的 SYN 报文和 SYN+ACK 报文可能分别触发 3 个注入的 RST+ACK 报文。对于发往中国境内的流量,只有服务器的 SYN+ACK 响应,而不是客户端的 SYN 报文,才能触发 RST+ACK 报文。

  3. 肇事设备与任何已知 GFW 设备的指纹不匹配,这表明该事件是由新的 GFW 设备或已知设备在新颖或配置错误的状态下运行引起的

值得注意的是,我们的分析受到事件持续时间较短(约 74 分钟)的限制。我们鼓励社区中的其他人分享他们的观察结果,以更全面地了解这一事件。