1.
概览:要监控的核心指标
- 指标清单:延迟(RTT)、丢包率、抖动(jitter)、带宽利用率、TCP重传、路由(BGP)状态、接口错误/丢帧、CPU/内存、连接成功率(端口握手)。
- 原因与优先级:延迟与丢包对用户体验影响最大,BGP路由异常影响可达性,接口错误提示物理或链路质量问题。
2.
基础联通性与延迟排查流程
- 步骤1(Ping 长时间采样):ping -c 200 -s 1400 <目标IP>,记录平均/最大/丢包。若大包有问题,怀疑 MTU。
- 步骤2(路径分析):mtr -rwzbc100 <目标IP>(Linux)或 tracert /d -h 30
(Windows),观察逐跳丢包与延迟突增点。
3.
端口与服务握手检查
- 检查 TCP 握手:使用 tcptraceroute 或 curl --connect-timeout 10 --max-time 15 http://:,确认三次握手是否被防火墙丢弃。
- TLS 检查:openssl s_client -connect :443 -servername <域名>,检查握手是否完成、证书是否正常。
4.
SNMP 与常用 OID 快速监控
- 必备 OID:ifOperStatus .1.3.6.1.2.1.2.2.1.8;ifInOctets .1.3.6.1.2.1.2.2.1.10;ifOutOctets .1.3.6.1.2.1.2.2.1.16;ifInErrors .1.3.6.1.2.1.2.2.1.14。
- 主机资源:hrProcessorLoad .1.3.6.1.2.1.25.3.3.1.2,memTotal/Free(UCD-SNMP-MIB)。将这些项接入 Zabbix/Prometheus SNMP exporter 并设置 1min/5min 采样。
5.
流量分析与异常流量定位
- 开启 NetFlow/sFlow:在边缘路由器启用 NetFlow(或 sFlow),导出到 nfdump/ntop 或 ELK。
- 排查方法:按源/目的 IP、端口、协议聚合,找到突增流量来源(DDoS、扫描、合法大流量),若为异常流量可临时 ACL/黑洞。
6.
BGP 与路由可达性检查
- 检查本地路由器 BGP:show bgp summary;show bgp neighbors;检查是否有大量 prefix withdraw 或 route flap。
- 使用看玻璃(Looking Glass)或 RIPE/HE 数据:从多个驻点 ping/trace 到目标 IP,确认是否为单向可达或区域性问题。
7.
抓包与深度协议排查
- 抓包命令示例:tcpdump -i eth0 host <目标IP> and port 443 -w /tmp/cap.pcap,抓取 SYN/SYN-ACK/ACK、RST、ICMP 类型。
- 分析要点:查看是否有大量 RST、重复 ACK(提示拥塞或丢包)、ICMP unreachable(PMTU 问题)、或防火墙丢包。
8.
MTU 与分片问题处理
- 验证方法:ping -M do -s 1472 (Linux),逐步减少 size 找到可达最大值。若小包可达大包不行,可能 PMTU 被阻。
- 解决:调整本端 MTU、检查 ISP/中间路由器是否屏蔽 ICMP Fragmentation Needed,或配置 MSS clamping(例如 iptables --clamp-mss-to-pmtu)。
9.
告警阈值与自动化应对建议
- 建议阈值:1min RTT 平均 >120ms 告警;丢包率 >1%(业务敏感)或 >3%(严重)告警;接口错误 >0.1% 持续 5min 告警;BGP peer down 立即告警。
- 自动化措施:高严重性自动化脚本(如变更路由优先级、切换备用链路、临时黑洞),并在动作前记录与通知。
10.
常见故障案例与一步步排查示例
- 案例1(用户抱怨香港访问慢):先 mtr 定位跃点;若跃点在 CN2 出口,联系上游并提交 traceroute 日志;若为局部丢包,抓包确认是否重传/丢包;如为单机问题,排查本地链路/防火墙。
- 案例2(不稳定断连):检查 BGP 是否频繁重启,查看 CPU/memory,抓取系统日志(/var/log/messages)并与上游核对。
11.
复盘与上游沟通模板
- 收集信息清单:时间窗口、mtr/traceroute、ping 报告、抓包(pcap)、SNMP/NetFlow 流量图、BGP state 与 log。
- 向上游提交时包含:影响范围、复现步骤、期望时间窗口、附件(pcap+traceroute),并请求对方检查出口/策略/黑洞告警。
12.
常用工具清单(快速参考)
- 命令工具:ping, mtr, traceroute, tcptraceroute, tcpdump, ss/netstat, iperf3。
- 平台工具:Zabbix/Prometheus+Grafana, Smokeping(延迟曲线), nfdump/ntop(流量分析), Looking Glass/Ripe Atlas(多点验证)。
13.
问:如何快速判断一个 IP 是否“香港原生”且跑 CN2?
- 回答要点:先查 whois/geoip(但地理库可能有误差),然后从国内多个节点做 mtr/traceroute,观察经过的 ASN 是否为中国电信 CN2(AS匹配 CN 大区 ASN),并查看延迟特征(香港节点 RTT 稳定且低)。结合看玻璃(上游路由器的 AS 路径)可确认是否走 CN2。
14.
问:碰到间歇性丢包我优先做哪些快速定位步骤?
- 回答要点:1) 用 mtr 长时间(100+)采样定位跳点;2) 在本端抓取 tcpdump 同步观察是否有重复 ACK/RST;3) 检查接口错误与流量突增(SNMP/NetFlow);4) 若问题在上游跳点,收集 traceroute + pcap 提交上游。
15.
问:监控告警阈值如何设定并避免误报?
- 回答要点:采用分级阈值与抑制策略,例如短时抖动容忍(1min 小幅抖动不告警),持续 3 次或 5 分钟内稳定超阈值才触发告警;对不同服务设置不同阈值(实时语音更严格),并结合流量/时间窗(业务高峰期阈值可动态调整)。
来源:运维建议香港原生ip香港cn2 的监控指标与故障排查方法