首先应把监控拆成三层:主机与系统、网络与链路、业务与服务。对香港高防主机要重点监测CPU/内存/磁盘/IO、连接数、TCP半开连接、socket队列、进程状态和服务健康;在网络层侧重带宽利用、丢包率、延迟、BGP路由变化和CN2专线状态;业务层监控应用响应时间、错误率、QPS/并发等。建议使用Prometheus + node_exporter/blackbox_exporter 监控主机与服务,结合Grafana做可视化仪表盘,并把网络流量采集(NetFlow/sFlow/IPFIX)接入流量分析系统以便在DDoS前期发现异常。
告警既不能太敏感造成告警风暴,也不能太迟导致事故扩大。采用分级告警(信息、警告、严重、灾难)并结合抑制规则。阈值建议基于历史数据动态计算(例如基于百分位或滚动窗口),关键点包括:带宽利用率达到70%为信息,85%为警告,95%为严重;异常流量突增(短时内增长3-5倍)触发网络告警;半开连接或SYN错误率异常立即告警。对CN2链路,需对BGP路由变化和邻居状态单独设告警。告警联动要与自动化脚本结合,满足自动限流、临时封禁或切换到清洗节点的能力。
集中化日志体系包含采集、传输、解析、存储与检索五部分。采集端采用Filebeat/Fluentd/rsyslog,把系统日志、应用日志、nginx/iptables日志、流量镜像分析日志集中到ELK/EFK或Loki + Grafana。日志传输需使用TLS加密,并在Agent端做必要的预聚合和限速以防日志风暴。解析方面建立统一的schema、标签(如host/region/instance/service/flow_type),并对攻击类日志(SYN flood、UDP flood、异常请求模式)做特殊解析和关联规则。存储策略按重要性分层:热数据保留7-30天,冷数据压缩后保留90-365天,并支持按IP或时间窗口快速检索以便取证。
一旦监控检测到异常流量,应立即触发事件响应流程:1) 自动化隔离:启用临时ACL、黑白名单或流量限速策略;2) 流量取样与镜像:启用NetFlow/sFlow取样并将pcap或流日志发往分析平台;3) 日志关联检测:在集中日志平台按源IP、目标端口、URI模式、User-Agent和请求速率做聚合,快速判断是否为刷流或放大攻击;4) 联动清洗:若本地能力不足,触发与上游清洗中心或供应商(高防提供商)接口进行BGP通告/流量劫持/转发清洗;5) 记录与回放:保存相关时段的完整日志与流量metadata供事后分析与法律取证。全流程要有预演脚本并定期演练以保证告警到处置的SLA。
首先做日志分类与分级,业务审计、合规类日志(如访问审计、支付日志)单独加密并延长保留期;普通访问与调试日志可以做聚合、采样或仅保留结构化摘要。采用冷热分层存储:热存储使用SSD以保证检索速度,冷存储压缩到对象存储(如S3或私有对象库)。成本控制措施包括:在Agent端做采样与抽样、日志压缩、按需索引(只索引需要快速检索的字段)、设置生命周期管理策略并定期清理过期数据。合规方面注意香港及目标用户地域的隐私条例,必要时进行日志脱敏与访问审计,限制对原始日志的访问权限并启用审计记录。