1. 精华一:先查外网再看内网——绝大多数故障来自DNS或回源链路。
2. 精华二:日志优先级别——从边缘到回源,依次查看访问日志、错误日志与监控告警。
3. 精华三:快速恢复策略——缓存刷新、回源降级与黑名单策略三管齐下,保证业务最小化中断。
作为拥有多年CDN与边缘实践经验的网络工程师,我把这份排查流程浓缩成可落地的步骤,遵循谷歌的EEAT原则:明确经验、可验证操作、引用权威工具与上报路径,保证你迅速恢复线上服务。
第一步:明确症状。区分是全量不可达、部分节点异常、还是个别资源404/5xx。常见关键词有504(回源超时)、503(服务不可用)、4xx(客户端错误)和突增的延迟。
第二步:基础网络与解析检查。执行 dig、nslookup、traceroute 检查DNS解析和路径。示例:curl -I https://your.site 检查头部响应;openssl s_client -connect your.site:443验证SSL/TLS链路。
第三步:边缘节点与缓存策略。确认CDN控制台中缓存规则、缓存命中率与回源频率。遇到缓存穿透或频繁回源,优先检查Cache-Control、Vary和Cookie策略,必要时执行缓存刷新(Purge)或临时设置更高的TTL。
第四步:回源与负载。检查ESC服务器(边缘/回源服务)CPU、内存、连接数及后端池状态。使用top、netstat、ss查看连接耗尽情况。若发现回源被限流或出现长队列,考虑临时开启回源熔断或增加回源实例。
第五步:证书与安全策略。证书过期会导致全量TLS失败,用openssl s_client确认证书链;同时检查Web应用防火墙(WAF)或IP黑名单是否误拦截合法流量。
第六步:日志与抓包取证。顺序为边缘访问日志 -> 负载均衡日志 -> 回源日志。必要时在回源或边缘做tcpdump抓包分析,定位TCP/SSL握手或HTTP层的异常。
第七步:性能与协议优化。检查是否开启了HTTP/2或QUIC(HTTP/3),压缩(gzip/brotli)、分片与连接复用是否正常;若发现带宽饱和或小文件大量并发,调整连接并发与缓存策略。
第八步:应急恢复步骤。1) 将流量回源直连或切换到备用域名;2) 临时降低安全策略、放宽WAF规则;3) 执行全量或部分缓存回滚/刷新;4) 提升回源容量或启用流量削峰。
第九步:工具与监控建议。推荐使用Grafana+Prometheus监控边缘吞吐与错误率,结合CDN厂商的诊断工具与日志服务(ELK/Fluentd)。告警设定包括高5xx比率、回源延迟上升和缓存命中率下降。
第十步:闭环与文档化。记录故障时间线、根因、临时措施与最终修复方案,更新Runbook与自动化脚本(如Purge API、回源切换脚本),并在变更窗口校验。
常见命令速查(示例):curl -I -v https://your.site;dig your.site @8.8.8.8;traceroute your.site;openssl s_client -connect your.site:443 -servername your.site;tcpdump -i eth0 host your.site and port 443。
结语:遇到紧急故障不要慌,按照“定位→验证→隔离→恢复→归档”的流程执行,依赖日志与抓包证据上报。如果需要,我可以把这份流程转成可执行的排查脚本与监控报警模板,帮助你把每一步自动化落地。
