生产里最怕「假在线」:launchd 显示进程在跑,但渠道半死不活——消息卡住、重连风暴、token 悄悄过期。盲目重启常把证据链冲掉。建议收敛成三条证据:日志时间线、channels status --probe、health --json,再决定改配置、换出口还是有序重启。下文给值班对照表,并附新加坡 / 东京 / 首尔 / 香港 / 美东 / 美西 Mac mini M4 云 Mac 短中期租用切法。
一、先对齐:什么是「假在线」
满足任意两条就要怀疑:端口仍在监听,但上游握手间歇失败;channels 看似 connected,业务收不到下行;CPU 空闲却持续重试,日志里 401/403/429 与 TLS 告警交替。它与「真宕机」不同:health 可能局部为黄,--probe 才把半开连接打回原形。
二、日志取证:先钉时间线
翻日志前固定:版本与配置指纹(openclaw --version、openclaw.json 摘要)、时区与 NTP、出口与 DNS。检索优先:reconnect、1008、401/403、certificate、timeout;标出首次异常与最后成功心跳。无时间线就重启,RCA 只能交给运气。
- 守护进程视角:用与 plist 相同用户拉 stderr,排除交互 PATH 假象。
- 磁盘:日志静默有时是盘满或轮转权限,而非网络。
三、channels status --probe
无 --probe 可能仍是上次成功缓存;探针才触发真实往返。先无 probe 留底,再对比延迟与错误码;probe 明显更差时优先查出口、代理与区域路由。子代理风暴类问题可结合 工具白名单与子代理并行 FAQ 收敛 maxSpawnDepth。
四、health --json 与重启
JSON 便于 CI/告警 diff:进程、端口、TLS、磁盘可写一眼归档。证书或上游 5xx 已写明时,重启网关多半无效;JSON 全绿而 probe 红 偏向路径或配额;仅当 进程僵死、端口循环占用 且日志重复崩溃栈时,再做有序重启。前后各抓一份 JSON 进工单,方便六地对比。
五、六地云 Mac:短中期切法
同一镜像在新加坡、东京、首尔、香港、美东、美西各开一台 M4 云 Mac 作对照:短期按天/周复现 probe 红线;中期按月/季跑常驻 launchd,接日志与 health 快照。东南亚用户多选新加坡;日本低延迟东京;韩国链路首尔;大中华区跨境常测香港;美东用户与部分控制面美东;西海岸构建与 CDN美西。以控制台为准,两地同跑 channels status --probe 比口头争论快。
六、浓缩 FAQ
- probe 偶发失败? 先查 DNS 分区域解析与 TLS 指纹、系统时钟。
- health 绿但业务卡? 看下游队列/配额,或降低子代理并行度。
- 整台云 Mac 重启? 仅当内核/磁盘不可恢复;网关层优先有序重启与摘流。
远程开发延迟与短中期租席对照买断,见 六地 M4 租用决策矩阵 FAQ。
在 vpszap 云上,这一切更简单
对照排障要可复现真机与多地低延迟:vpszap 独享物理 M4 Mac Mini,无虚拟化争抢;约五分钟开通,SSH+VNC 便于钥匙串与 GUI 授权;按天/周/月/季、无长约,适合短租探针机再抬中期常驻。
若要把本文清单落在可横向扩展的多地环境上,vpszap 云端 Mac mini 是低开销起点。