部署网站到越南VPS的G口后,优先监控的关键项包括:1)CPU 与负载(load average);2)内存与 Swap 使用;3)磁盘 I/O(iops、await);4)网络吞吐与丢包(TX/RX、错误、丢包率);5)应用层响应时间(HTTP latency、错误率)。推荐使用组合:系统级(top/htop、vmstat、iostat、sar)、网络(iftop、nload、ss、netstat)、日志(journalctl、/var/log/nginx/error.log)及应用探针(Prometheus + node_exporter、Grafana 或 Zabbix)。这些维度能快速定位是系统资源瓶颈还是网络链路问题。
先用 ping 和 mtr 测试到目标节点的延迟与跳数,确认是否为链路中间路径问题。使用 iperf3 做带宽测试,能判断吞吐是否达标。查看网卡统计(ethtool -S eth0 或 ip -s link)判断 RX/TX 错误、丢包或 CRC 错误;若虚拟化环境,需向 VPS 提供商确认宿主机网卡或 vSwitch 状态。排查 MTU、双工不匹配(ethtool)、QoS 限速以及防火墙策略(iptables/nftables)是否影响流量。最后用 tcpdump 抓包定位重传或握手失败的具体报文。
CPU:用 top/htop 找出占用高的进程,查看 load average 与 CPU 利用率。若为单线程瓶颈,考虑优化代码或提升单核性能。内存:检查 free -m、/proc/meminfo 与 swap 使用,过度 swap 会严重拖慢响应;可通过调整缓存策略或增加内存解决。磁盘:用 iostat -x 查看 tps、await、%util,若 await 高或 %util 接近100%,说明磁盘成为瓶颈,可迁移到更快的磁盘或优化 I/O(如开启异步、缓存、使用 SSD)。同时检查 inode 与磁盘空间 df -h 与 df -i。
先查看应用日志(如 Nginx access/error、PHP-FPM 或 Node 日志)获取错误细节。检查后端连接数与超时配置(Nginx worker_connections、keepalive;PHP-FPM pm.max_children),确认是否达到上限导致排队。使用 ab/hey 或 wrk 进行压测重现问题,结合慢日志(PHP slowlog、MySQL slow query)定位慢请求。若后端数据库或缓存压力大,应同时监控 MySQL/Redis 指标并优化查询、添加索引或使用缓存。
搭建一个结合 Prometheus + node_exporter 与 Grafana 的监控面板,采集 CPU、内存、磁盘、网络、进程、HTTP 接口响应等指标。配置 Alertmanager 或 Zabbix 告警规则:如 CPU > 80% 持续 5 分钟、磁盘使用 > 85%、丢包率 > 1%、HTTP 5xx 比例上升等。对于网络链路,增加外部合规性探针(从国内/目标用户侧做合成测试)可以提前发现跨国延迟或丢包问题。配合自动化运维脚本(如在告警触发时自动收集 top、iostat、tcpdump、日志片段并上传到集中存储)可加速定位与恢复。
