1.
- 建议优先选择吉隆坡或新山节点以缩短区域延迟(到新加坡典型 RTT 约 20-40ms)。
- 按业务模型选择 CPU / RAM:轻量 Web 服务 1-2 vCPU + 1-2GB RAM;中等应用 2-4 vCPU + 4-8GB RAM;数据库或缓存建议 4+ vCPU + 8+GB RAM。
- 带宽按并发估算:假设每请求 100KB,1000 并发每秒约 100MB/s(约 800Mbps),因此需合理预留突发带宽与流量包。
- 磁盘优先 NVMe,IOPS 与延迟关键:常见配置 80GB NVMe 起步,数据库建议 200GB+ 并开启快照策略。
- 网络与 SLA:选择提供私有网络、浮动 IP 与 DDoS 基础防护的供应商,查看吞吐与峰值能力说明文档。
2.
- 操作系统推荐:Ubuntu LTS(20.04/22.04)或 Debian 11,内核版本尽量 >= 5.x 以支持现代网络与文件系统优化。
- 用户与权限:创建非 root 用户并配置 sudo;示例命令:sudo adduser dev && sudo usermod -aG sudo dev。
- 防火墙与端口策略:使用 ufw 或 firewalld,仅打开必要端口(80/443/22 或自定义 SSH 端口)。
- 自动化部署:使用 Ansible / Terraform 管理实例与配置,示例 inventory 包含 hostname、vCPU、RAM 属性,易于横向扩容。
- 系统参数优化:调整 sysctl(net.core.somaxconn=65535、net.ipv4.tcp_tw_reuse=1)与文件描述符限制(ulimit -n 65536)。
3.
- SSH 安全:禁止密码登录,使用密钥对并限制登录账户与来源 IP;修改默认端口并启用 fail2ban。
- 服务隔离:用 Docker / systemd 将服务隔离,最小化权限边界,避免单点被攻破导致全盘受影响。
- DDoS 防护层级:启用提供商的基础 DDoS 防护,同时配置云端(或 CDN)清洗,设置速率限制与 ACL。
- WAF 与流量分析:部署应用层 WAF(ModSecurity 或云 WAF),结合日志分析检测可疑请求模式。
- 备份与恢复:启用定期快照(每日/每周),并在不同可用区保存;测试恢复时间目标(RTO)和恢复点目标(RPO)。
4.
- Nginx 与 Keepalive:配置 worker_processes auto,worker_connections 65536,启用 gzip 与 HTTP/2,调整 keepalive_timeout 减少 TIME_WAIT。
- 数据库优化:MySQL 示例配置:innodb_buffer_pool_size=6G(占 RAM 60-80%),innodb_flush_log_at_trx_commit=2 以提升写性能(权衡持久性)。
- 缓存策略:Redis 放置在私有网络内,配置 maxmemory-policy=allkeys-lru,持久化 RDB/AOF 根据场景调整。
- I/O 与文件系统:对高并发写入使用 XFS 或 ext4 with noatime;开启 discard 或定期 fstrim(SSD/NVMe)。
- 监控与指标:部署 Prometheus + Grafana,关注 CPU、磁盘 IOPS、网络延迟、连接数、负载均衡后端健康等。
5.
- 域名托管:把主域名与子域的 DNS 托管在可靠服务(例如 Cloudflare、AWS Route 53、DigitalOcean DNS)。
- DNS 策略:设置短 TTL(如 60-300s)用于快速切换浮动 IP,次级记录用于负载均衡与故障切换。
- CDN 使用场景:静态资源与缓存页面通过 CDN 下沉到马来西亚边缘节点,压缩并开启 Brotli/Gzip。
- HTTPS 与 HSTS:使用 Let’s Encrypt 自动签发并配置自动续期;开启 HSTS 避免中间人攻击。
- 流量清洗与缓存规则:在 CDN 层配置缓存键(忽略无关 Cookie),并设置动态请求回源策略与速率限制。
6.
- 背景:某国内 SaaS 在吉隆坡部署面向东南亚用户的服务,目标 99.95% 可用性。
- 初始配置:主服务节点 4 vCPU / 8GB RAM / 80GB NVMe / 2TB 带宽,数据库节点 4 vCPU / 16GB RAM / 200GB NVMe,Redis 2 vCPU / 4GB RAM。
- 流量峰值与优化:上线后日流量峰值 1.2TB,单 VM 峰值带宽 450Mbps,通过启用 CDN 与增加一个后端实例将响应时间从 450ms 降到 120ms。
- 恶意流量处理:遭遇 10Gbps SYN-FLOOD 攻击时,供应商流量清洗与云 WAF 将攻击丢弃在边缘,VPS CPU 利用率未超过 30%。
- 备份与恢复演练:每晚快照 + 每周异地备份,演练恢复时间 15 分钟内完成主库切换至备份节点。
7.
| 方案 | vCPU | 内存 | 磁盘 | 月流量 |
|---|---|---|---|---|
| 入门型 | 1 vCPU | 1 GB | 25 GB SSD | 1 TB |
| 标准型 | 2 vCPU | 4 GB | 80 GB NVMe | 2 TB |
| 高性能型 | 4 vCPU | 16 GB | 200 GB NVMe | 5 TB |
8.
- 先从小规模测试环境开始,使用 IaC 管理资源以便复制与扩容。
- 切勿把所有服务放在同一台实例,数据库与缓存应独立部署以减少资源争用。
- 注意带宽计费模型(按流量或按峰值),误估会导致成本暴增。
- 定期演练故障切换和恢复流程,确保RTO/RPO满足业务要求。
- 保持监控告警灵敏但不过度,避免告警疲劳导致真实事故被忽视。