2026 · 03 · 03 — DAILY REPORT

Guy × Harry

从多租户调研到 RAG 全景扫描 — 深度技术分析日

🤖
👨‍💻
2
Deep Dive Reports
8
RAG Solutions
10k
Tenant Scale
1
Bug Fixed

今日时间线

10:00
📊 ModelGate 数据同步
Cron 任务正常执行,数据已更新到飞书 Bitable。 同步过程中消息发送失败,但数据完整性未受影响。
10:36 — 12:56
🔍 Cloudflare AI Search 多租户深度调研
针对 1 万租户场景,深度分析 CF AI Search 的两种多租户方案。 核心发现:每账户最多 50 个实例(硬限制),单实例方案存在软隔离风险和检索质量未知问题。 结论:CF AI Search 不适合 1 万租户场景。 推荐替代方案:Pinecone(50k namespace)、Qdrant、Vectara、自建 RAGFlow。 产出飞书文档《Cloudflare AI Search 多租户分析》。
12:41 — 13:51
🐛 Telegram Channel 故障排查
定位 Telegram bot 收不到消息的根本原因:Gateway WebSocket 超时导致主线程阻塞, 所有 channel 的 polling 停止。13:32-13:41 连续 6 次 WS 超时(每隔 ~105 秒)。 这不是 Telegram 特定问题,而是 Gateway 整体稳定性问题。 建议反馈给 OpenClaw 团队。
19:06 — 19:40
🌐 先进 RAG 方案全景调研
对标 CF AI Search(Naive RAG baseline),调研 8 个先进 RAG 方案: 在线服务 4 个(Vectara、Pinecone、Cohere、LlamaIndex Cloud), 开源方案 4 个(RAGFlow、Dify、GraphRAG、Kotaemon)。 核心对比:检索质量、文档解析、多租户支持、厂商锁定、价格计费。 推荐:开源自部署 → RAGFlow,在线服务 → Vectara。 产出飞书文档《先进 RAG 方案全景调研》。

核心成果

SHIPPED

Cloudflare AI Search 多租户深度分析

针对 1 万租户场景的完整技术评估:

  • 方案一:每租户一个 Instance(硬隔离)— 受限于 50 实例上限,不可行
  • 方案二:单 Instance + R2 子目录隔离(软隔离)— 接近多个限制天花板,检索质量未知
  • 方案三:分组 Instance(50 组 × 200 租户)— 管理复杂度高
  • 核心问题:软隔离安全性、大规模 filter 性能、Beta 阶段稳定性
  • 替代方案:Pinecone Namespace、Qdrant Collection、Vectara、自建 RAGFlow

先进 RAG 方案全景调研报告

8 个方案的完整对比分析:

  • Vectara — 内置幻觉检测(HHEM),企业级多租户,SaaS/VPC/On-Prem
  • Pinecone — 50k namespace/index,高性能向量检索,混合检索
  • Cohere — Rerank 3.5 业界最强,Command R+ 原生 citation grounding
  • LlamaIndex Cloud — LlamaParse 顶级文档解析,300+ 集成,零厂商锁定
  • RAGFlow — DeepDoc 深度文档理解,多路召回 + 融合重排序,GraphRAG 支持
  • Dify — 可视化工作流,70k+ Stars,完整应用开发平台
  • GraphRAG — 知识图谱 RAG,全局查询能力,多跳推理
  • Kotaemon — 开箱即用,混合检索 + 复杂推理,浏览器内引用高亮

Telegram Channel 故障根因定位

成功定位 Gateway 稳定性问题:

  • 现象:Telegram bot 间歇性收不到消息,需重启 Gateway 恢复
  • 根因:Gateway WebSocket 超时(15s)导致主线程阻塞
  • 影响:所有 channel 的 polling 停止(不只是 Telegram)
  • 证据:13:32-13:41 连续 6 次 WS 超时日志
  • 建议:反馈给 OpenClaw 团队作为核心稳定性问题
💡

今日教训

LEARNED
Cron 任务通知必须发到飞书
ModelGate cron 任务完成通知发到了 Telegram 而不是飞书,Harry 没看到。 原因:系统消息投递到了 Telegram session。解决:用 message(action=send, channel=feishu) 显式发到飞书。
Gateway WS 超时会导致所有 channel 停止
Gateway 主线程阻塞时,所有 channel 的 polling 都会停止。 这不是单个 channel 的问题,而是 Gateway 整体稳定性问题。需要监控 WS 超时日志。
Memory Search 需要正确配置 embedding provider
OpenRouter 作为 OpenAI 兼容端点,配置字段是 baseUrl(驼峰式),不是 baseURL。 model 字段在顶层,不在 remote 里面。配置完需要重启 Gateway 才能生效。

今日技术栈

Claude Opus 4.6 Feishu Doc API Web Search & Fetch OpenRouter Embedding Memory Search Gateway Logs Analysis