1.
准备工作:资料与权限清单
- 收集机房资料:供应商、位置、机房等级(Tier)、机柜编号、单线图。
- 争取权限:要求获取机柜现场访问权限、机房工程联系人、远程控制台(KVM/iDRAC)与只读SNMP或API账户。
- 工具清单:准备笔记本、网线、笔记、SSH客户端、iperf3、mtr、ping、traceroute、curl、tcping、Power meter(瓦表)和相机。
2.
网络连通性与路径一致性检测
- 本地到机房的连通:从你的办公/节点执行 ping -c 100 <目标IP>,记录平均延迟、丢包率与抖动。
- 路径分析:使用 mtr -r -c 100 <目标IP> 或 traceroute 来确认跃点并判断是否存在拥塞点。
- 跨运营商路径验证:要求机房提供多个出口IP,分别测试并比对延迟与丢包,确认是否双路/多路出口真实存在。
3.
吞吐、并发能力与SLA验证
- 带宽测试:在机房侧配合部署iperf3 server,客户端执行 iperf3 -c
-t 60 -P 10,观察稳定带宽与丢包。
- 并发模拟:用多线程或分布式节点模拟真实站群并发,记录短期峰值与持续吞吐能力。
- SLA核对:索要合同SLA中的带宽可用率、丢包/延迟承诺和赔付条款,按实际测试结果比对是否满足。
4.
BGP、路由与AS级别检查
- BGP信息:要求对方提供ASN、是否双归(dual-homed)、各出口ISP名单与Looking Glass节点。
- 验证方法:在本地或借助公共Looking Glass查询对方前缀的AS_PATH和是否有备份路径;用 bgp.he.net 或各运营商LG验证路由传播。
- 决策要点:优先选择有多个主干承载、与目标流量方向互联较好(中国/东南亚/美西)的出口机房。
5.
电力拓扑与故障切换测试
- 拓扑确认:索要单线图,确认是否有A/B供电、UPS拓扑(N、N+1或2N)、PDU类型与机柜分配。
- UPS与发电机测试:要求机房在维护窗口执行一次UPS到发电机切换测试,记录切换时间、是否无缝供电、UPS在X%负载下的可用分钟数。
- 现场测量:使用功率计测量单个机柜额定功率与实际功耗,确认PDU余量及相位平衡,记录PDU端口编号与配电表读数。
6.
运维与监控能力评估
- 告警与监控:确认是否有温湿度、烟感、水浸、门禁、摄像头、UPS与发电机告警接入,是否支持SNMP/Trap或API对接。
- 日志与维保:查看最近维保记录、发电机负载测试报告、UPS电池更换记录及证书(如ISO 27001/9001/22301)。
- 人员与响应:明确现场工程师工作时间(24/7与否)、故障响应SLA和远程支持流程,要求联系方式与Escalation路径。
7.
问:如何判定网络是否满足站群运营的延迟与稳定性需求?
- 依据:以目标用户群为准,设定关键节点的延迟阈值(例如:华南用户延迟目标<30ms,国际目标根据线路差异设置)。
- 判定步骤:连续7×24或至少72小时采样ping/mtr和iperf,检查丢包>1%或瞬时抖动超过阈值则不达标。
8.
答:若发现丢包或异常抖动,应如何定位与沟通?
- 定位流程:先用mtr定位跃点,确认是否在机房侧或上游;再用不同出口IP/路径比对是否为单一ISP问题。
- 沟通点:将测试数据(原始mtr、iperf日志、时间戳)提供给机房工程师,要求其与上游运营商进行链路级排查并出具故障报告。
9.
问:电力方面的拒收标准有哪些,哪些测试必须现场完成?
- 拒收标准举例:无A/B独立供电、UPS运行不到额定负载的20分钟以上、发电机在燃料允许下不能维持24小时(或合同约定小时数)即为不合格。
- 必测项目:ATS切换时间、发电机满载测试、UPS在目标负载下的放电时间和PDU单相/三相平衡测量,均需现场见证并有书面记录。
10.
答:最终验收与合同条款建议有哪些重点?
- 验收清单:将上述测试命令、截图、日志和机房单线图写入验收报告并由机房签字确认。
- 合同建议:写明SLA量化指标、定期演练(UPS/发电机)频率、违约赔偿条款、现场访问与数据采集权限以及变更/维护通知周期。
来源:站群运营者如何评估香港站群自营机房的网络与电力条件