核心思路是以历史流量为基础,结合业务特性做短中长期预测,设置分级触发阈值。
先采集近3~12个月的访问量、并发数和后端耗时等关键指标,使用移动平均、指数平滑或基于机器学习的时间序列模型(如ARIMA、Prophet、LSTM)进行预测,得到未来短期峰值和波动区间。
根据预测的上限和置信区间设置多个阈值:警告阈值(预热)、扩容阈值(快速增加实例或函数并发)与紧急阈值(触发降级或限流)。阈值应体现业务优先级与容忍度。
阈值要与实际冷启动、实例伸缩响应时间匹配,避免频繁抖动导致成本上升或体验下降。
关键指标包括请求速率、并发数、平均响应时间、错误率、冷启动率和后端依赖(DB、缓存)队列长度。
建立实时监控与历史存储,两套告警策略:基于绝对值的实时告警与基于预测误差的趋势告警。结合分地域(香港)与分业务线的细粒度视图。
采样频率要能反映业务波动(建议1分钟级),并做移动窗口聚合,支持短期预测和突发检测。
监控系统本身要具备高可用,避免监控盲区同时防止监控数据延迟影响弹性决策。
实现策略应结合预测驱动和规则驱动:预测触发提前预热,规则触发处理突发。
当预测在未来T分钟内达到某个阈值时,提前增加并发配额或预创建执行环境以减少冷启动;配合预热调用验证可用性。
基于实时指标(如并发、延迟)配置弹性策略,采用平滑扩缩容(多步增长/回退)并设置最小/最大并发限制。
要考虑无服务器平台的限速与配额,避免单一业务占尽资源,同时为突发流量保留预留池或降级策略。
地域与网络需关注跨境链路时延、可用区分布和接入点,选择靠近用户的边缘节点与镜像存储以降低延迟。
根据数据类型评估是否受《网络安全法》等合规约束,落实数据在香港的存储与访问策略,必要时采取加密与访问控制。
设计跨地域备份与路由策略,在香港主区外保留冷备或跨云冗余,保证突发故障快速切换。
网络突发(如链路拥塞)会影响预测准确性,应将网络健康度纳入扩容决策的输入。
成本优化需在性能与费用间权衡,通过预测预热、按需与预留组合、以及合理限流来控制。
对常态负载使用预留并发或保留容量以降低单位成本,对突发流量使用按需扩容;结合预测调整预留规模。
设计分级降级(非核心功能降级、减少多余日志、延迟批处理)与熔断策略,以在极端情况下保护核心SLA并节约成本。
持续优化模型和参数,定期回测预测与扩容策略,避免过度保守或过度激进导致成本浪费或SLA违约。