AI Skill 执行可靠性审计工具
在 AI 执行前,发现 Skill 里的隐患
Skill 里写了 /Users/foo/...,换台机器就挂
正常流程写得很好,异常分支没写,AI 瞎编
"酌情处理"、"大概估算",AI 自由发挥空间太大
没写禁止操作,AI 可能执行危险指令
同一份 Skill,三份视角 — 以下是 HaluCatch 审计自身的真实报告
以下是 HaluCatch 审计自身的真实报告(审计根目录 SKILL.md)
这项检查在干什么?
检查 SKILL.md 的步骤是否清晰、是否有"如果出错了怎么办"的分支、输出格式是否明确、有没有给 AI 看示例。
结果:✅ 明确
这项检查在干什么?
检查 Skill 有没有写"禁止做 X",以及 AI 执行完后有没有验证输出的步骤。
结果:🟢 到位
以下是 HaluCatch 审计自身的真实报告(审计根目录 SKILL.md)
✅ 自检全部通过,无阻塞项。所有已知高/中优先级问题已修复。
| 维度 | 评级 | 分数 |
|---|---|---|
| 🏗️ 地基 | 🟢 稳固 | 6/6 |
| 🤖 代码 | 🟢 低风险 | 0/7 |
| 📝 规则/方法论 | 🟢 明确 | 5/6 |
| 🛡️ 护栏 | 🟢 到位 | 8/8 |
本报告由 HaluCatch 生成。自检: ✅ 全部通过
以下是 HaluCatch 审计自身的真实报告(审计根目录 SKILL.md)
| 优先级 | 文件 | 修改建议 | 状态 |
|---|---|---|---|
| ~~🔴 高~~ | ~~halucatch_core.py~~ | ~~裸 except: pass → 改为 except Exception as e: 并打印日志~~ | ✅ 已修复 |
| ~~🔴 高~~ | ~~halucatch_core.py~~ | ~~[除零风险] 除法前检查分母是否为 0~~ | ✅ 已修复 |
| ~~🟠 中~~ | ~~halucatch_core.py~~ | ~~[静默覆盖] 写文件前检查是否存在,或用追加模式~~ | ✅ 已修复(版本号+防覆盖) |
| ~~🟠 中~~ | ~~SKILL.md~~ | ~~声明数据时效性约束(如"数据不超过 7 天")~~ | ✅ 已修复 |
| ~~🟠 中~~ | ~~SKILL.md~~ | ~~声明前提假设(如"输入数据已去重")~~ | ✅ 已修复 |
当前 HaluCatch 自审未发现高/中优先级问题。如有新需求,请描述具体场景。
复制下方提示词发给 AI,即可安装 HaluCatch
🇨🇳 国内用户方案
为国内用户提供 SkillHub 安装提示词
国际用户方案
为国际用户提供 ClawHub 安装提示词
告诉 AI 你要审查哪个 Skill 或者你的 Skill 所在的文件夹路径
reports/ 目录:接下来 AI 会做:
三份报告分别面向不同角色,选择适合你的阅读
用人话解释每个问题是什么、为什么重要、怎么改
结构化检查清单,每个维度打分,精确到文件和行号
修复清单 + 验证检查点,AI 按步骤执行即可
💡 如果决定修复:告知 AI 读取行动版报告并执行,它会按清单逐项修复。修复后重新审查,确认问题清零。
git clone https://github.com/CoderMoray/HaluCatch.git cd HaluCatch
# 自动检测语言(中文/英文) python3 halucatch_core.py --skill-dir /path/to/your-skill # 或强制英文输出 python3 halucatch_core.py --skill-dir /path/to/your-skill --lang en # 或使用包方式 python3 -m halucatch --skill-dir /path/to/your-skill
# 三份报告自动生成在 reports/ 目录 reports/HaluCatch-report-YYYY-MM-DD.md # 专业版 reports/HaluCatch-report-YYYY-MM-DD-标准版.md # 标准版 reports/HaluCatch-report-YYYY-MM-DD-行动版.md # AI 行动版
不需要。全程离线运行,仅扫描本地文件夹中的 SKILL.md 和 .py 文件,不会发起任何网络请求。
对 AI 说「请用 HaluCatch 审查 /path/to/skill」即可。AI 自动扫描、评估、生成三份报告到 reports/ 目录:
-行动版.md → 从第一条开始逐项修复可以。HaluCatch 会自动分类为「纯方法论型」并跳过地基/代码检查,只评估方法论结构和护栏完整度。
看同目录下的 HaluCatch-report-日期-行动版.md,它逐条列出了修复方案。按清单逐项改,改完后重新审查验证。
当前 7 条通用规则:裸 except: pass / 浮点比较 (== 0.0) / 除零风险 / 硬编码阈值 / 路径拼接 / 静默覆盖 / 超时缺失。
当前版本暂不支持批量模式。你可以逐个运行。批量功能已在 roadmap 中。