1.
- 首先确认是单个服务/端口、整台 VPS 还是整个机房都受影响。
- 本地与外网多点验证:本地机、家宽和第三方 VPS(例如阿里云/腾讯云同区域)分别 ping/访问目标服务。
- 记录发生时间、持续时长与变更(最近是否升级、修改防火墙、变更路由)。
2.
- ping:ping -c 5 <目标IP>,注意丢包与延迟波动。
- traceroute:traceroute -n -w 2 <目标IP> 或使用 tcptraceroute 在 80/443 端口检测。
- mtr:mtr -r -c 100 -w <目标IP>,输出保存为 mtr-report.txt 供上报。
3.
- 查看接口:ip link show / ethtool eth0(检查协商速率与错误)。
- MTU 检查:ip link show dev eth0;如怀疑分片问题,用 ping -M do -s 1472 <目标> 以测试 MTU。
- 路由表:ip route show,确认默认网关是否正确。
4.
- ss -tnlp | grep :80 或 netstat -tunlp,确认服务监听与本地端口。
- curl -v --connect-timeout 5 http://127.0.0.1:80 测试本机服务响应。
- 检查防火墙:iptables -S 或 nft list ruleset,临时放行测试端口(谨慎操作)。
5.
- tcpdump:tcpdump -i eth0 host <对端IP> and port 80 -s0 -w /root/cap.pcap。
- 若疑似运营商丢包,截取从 VPS 发往上游网关的包(及回程)并保存时间戳。
- 将 pcap 用 Wireshark/MITM 分析三次握手、RST、ICMP 重传信息。
6.
- traceroute/mtr 指向运营商骨干节点(注意 CN2 的 MPLS 路由特征)。
- 若到达运营商网络即出现大丢包或跳数异常,通常为上游问题。收集多个时段的 mtr 报告。
- 向 VPS 提供商查询是否有 BGP 变更、链路维护或防护策略更新。
7.
- 若怀疑 MTU 或链路分片:临时降低 MTU(ip link set dev eth0 mtu 1400),验证是否恢复。
- 修改路由优先级:ip route replace default via <备用网关> dev eth0 metric 100(仅当有备用网关)。
- 重启网络服务:systemctl restart networking 或 systemctl restart network,必要时重启 VPS。
8.
- 提供时间窗口、mtr 报告、traceroute、ping 报告、tcpdump pcap、控制台截图、宿主机/实例ID、快照链接。
- 请求厂商返回 BGP 路由历史、链路流量监控、是否存在黑洞/防护策略触发。保持逐步沟通并索要工单号。
9.
问:我怎么确认是 CN2 线路问题而非自己 VPS 的配置导致?
答:先从 VPS 内部(本机 curl/ss/netstat、MTU、ethtool)排查是否本地问题;再用第三方节点(不同运营商 VPS)对目标做 mtr/traceroute。如果在到达运营商骨干后丢包/延迟上升且多源都复现,则倾向上游 CN2 链路问题,需把 mtr/traceroute/pcap 提供给厂商。
10.
问:短时间内用户访问受影响,如何快速恢复?
答:优先使用临时绕路或回退方案:降低 MTU、切换到备用网关、将流量导向非 CN2 的出口(如临时把域名解析到其他可用机房或海外加速节点),或将实例快照恢复到同供应商其他可用区/宿主机,短期保障服务。
11.
问:提交工单要求厂商尽快响应,我应该准备哪些关键数据?
答:准备好:故障开始时间/持续时间、目标IP与端口、从多地采集的 mtr/traceroute 报告、tcpdump pcap(包含时间戳)、控制台与系统日志、实例ID与快照、以及期望的恢复时限和影响范围。越详细能让 NOC 快速定位并触发链路或路由回滚。