表现为网站或应用突然无法访问,HTTP/HTTPS 无响应,SSH/SFTP 连接超时,或同一时间多个节点都不可达。用户反馈这是最常见的常见故障之一。
可能由机房链路中断、BGP 路由问题、交换机/路由器端口宕机、防火墙策略误阻断或服务器本身网络配置错误导致。
首先在本地与边缘测试:使用 ping、traceroute 或 mtr 获取路径信息;如果是整段链路问题,记录抖动或丢包点并上报 PCCW NOC;在服务器侧检查网络接口(ip addr / ifconfig)、路由表(ip route)、防火墙规则(iptables/nftables/firewalld)以及 NIC 状态;必要时重启网络服务或网卡,保留日志并向机房提交工单(附 traceroute、ping 丢包率、时间戳)。同时确认是否因欠费或账号问题被下线。
用户报告页面加载慢、API 响应超时或数据传输中断,诊断显示跨国访问到香港节点存在高延迟或间歇性丢包。
常见原因包括链路拥塞、路由绕行(劣质路径/长路径)、DDoS 攻击、服务器 CPU/网络队列过载或交换设备端口错误计数。
使用 mtr 分析逐跳延迟与丢包点,结合 PCCW 提供的路由表检查是否存在不合理的回程路由;排查服务器端负载(top、iostat、ifstat、sar),若是 DDoS,启用机房防护或上游清洗服务;调整 TCP 参数(如 net.ipv4.tcp_window_scaling、net.core.rmem_max/wmem_max)、打开多队列(RSS)并升级网卡驱动;必要时将部分流量导入 CDN 或启用负载均衡以分散压力。
日志写入失败、数据库异常、网站 500 错误或数据库响应慢,df -h 显示磁盘已满或 iostat 显示 IO 等待高。
长期日志累积、备份文件占用、临时文件或缓存未清理、inodes 用尽、后台任务异常生成大量文件或磁盘本身故障都可能导致该类常见故障。
运行 df -h 检查可用空间、df -i 检查 inode;使用 du -sh /* 或 du -sh /var/log/* 找到大文件并清理(先备份);配置 logrotate,限制日志占用;对数据库进行优化与清理历史数据;若是 LVM/云盘,可扩容卷并 online resize;遇到磁盘硬件故障,及时替换并从快照恢复数据。
用户反馈部分域名解析异常、证书过期或浏览器报错为“不安全”,导致 HTTPS 无法访问或跳转错误,影响站群中的多个站点。
可能由 DNS 记录配置错误、TTL 更新未生效、CAA/CNAME 限制、证书到期、证书链缺失或自动续签失败(如 Let’s Encrypt 限速)引起。
使用 dig/nslookup 检查 A/AAAA/CNAME 记录及 TTL,确认解析在全球生效;检查 CAA、MX 等限制项;用 openssl s_client -connect host:443 -showcerts 或在线工具检查证书链与到期时间;若证书过期,立即使用证书管理工具(certbot、acme.sh 或商用 CA)更新并部署到负载均衡/反向代理,然后重载 nginx/apache;对自动续签失败,排查端口 80/443 是否被占用或防火墙阻挡,并检查 ACME 的挑战目录权限。
管理面板无法登录、SSH 密钥无效、密码失效或频繁被锁定,导致无法对站群进行正常维护或部署更新。
可能是账号被锁(安全策略、fail2ban)、密码策略变更、密钥权限错位(~/.ssh/authorized_keys 权限不当)、控制面板服务异常或后台数据库连接失败。
首先通过机房控制台或 KVM/IPMI 登录物理控制台恢复访问;检查 /var/log/auth.log 或 journalctl 了解认证错误;排查 fail2ban、PAM、sshd_config(如 PermitRootLogin、PasswordAuthentication)和 authorized_keys 权限(700/600);如是面板问题,查看面板服务日志、数据库连接字符串与磁盘空间;若账号被锁或忘记密码,按 PCCW 提供流程重置凭证并启用双因素认证以提高安全性。