让 Hermes 有记性、也省 Token:我的七步配置清单
说实话,Hermes 裸装和配满之后,基本就是两个东西。
裸装能跑,但记忆短、搜不了网、也不会说话画画,Token 还经常莫名其妙烧一大把。配满之后,它能记住你是谁、能读网页、能出声出图,Token 也压得住。
我自己目前用下来,主要就五块东西:人格、记忆、感知、表达、成本。下面一个个说怎么装,踩过的坑也一起写了。
第一步:写一份 SOUL.md,先把"它是谁"定下来
Hermes 默认没人格,每次对话都像在跟一个临时工说话,挺累的。
我用的是 agency-agents-zh 这个库,里面有 211 个中文角色模板,按部门分好了——工程、设计、营销、产品、游戏、安全、金融、HR,十几个方向都有。还附带了 46 个专门针对国内平台的智能体,小红书、抖音、微信、飞书、钉钉、B 站、跨境电商、政务、医疗合规这些垂直场景基本都覆盖了。
仓库在这里:https://github.com/jnMetaCode/agency-agents-zh

每个角色是一个独立的 .md 文件,人设、工作流程、交付物都写好了。用的时候直接告诉 Hermes "激活某某角色"就行,后面聊着聊着不顺手了再改。
第二步:把内置的 MEMORY.md 换成 Hindsight
内置的 MEMORY 有两个问题:一是只有 Hermes 自己觉得重要才往里写,二是有硬上限,大概 2200 字符就满了。跨会话基本等于失忆。
Hindsight 的逻辑不一样。它会自动从每轮对话里抽实体、事实、关系、时间戳,建一张知识图谱,然后在每次调用大模型之前,把相关的记忆塞进 system prompt 里。真正意义上的长期记忆。
装的步骤很短:
hermes memory setup向导里选 hindsight,依赖它自己装。然后去 https://ui.hindsight.vectorize.io/connect 注册一个账号,生成 API Key,免费额度日常够用。
装完跑一下:
hermes memory status看到 Hindsight 已激活,bank_id、auto-recall、auto-retain 这几个状态都在,就 OK 了。
第三步:让它能读懂互联网
抓网页这块,我装了四个,分工不一样:
Jina Reader:单页抓取,最轻的方案
Crawl4 AI:批量深度抓取
Scrapling:专门对付反爬
CamoFox:隐身浏览器,对付更狠的反爬
CamoFox 和 Scrapling 是 Hermes 官方支持的技能,hermes tools 加 pip 就能装。Jina Reader 和 Crawl4 AI 没有官方内置,但用 Skill 包一下或者直接调 API 都行,不复杂。
懒得折腾的话,把需求扔给 Hermes,让它自己边装边教你,这一步它干得比教程还顺。
第四步:搜索和文档处理
搜索我用 Tavily 打主力,AI 专用,每月 1000 次免费额度;兜底挂 DuckDuckGo,完全零成本。
文档这边装两个:
Pandoc:万能格式转换
Marker:PDF 转 Markdown,精度比默认工具高不少
这四个装完,Hermes 基本能吃下任意格式的资料,PDF 里的表格和公式也能保住。
第五步:表达能力
Whisper:语音识别,支持 99 种以上语言
Edge TTS:语音合成,免费
Fal.ai:图片生成
FLUX Skill:出高质量图
这一套装完,Hermes 就不只是个会打字的了,能听、能说、能画。日常做会议纪要、做短视频素材都顺手。
第六步:Token 怎么省,这块最关键
前面几步是让它更强,这一步是让它不烧钱。我分四个工具说。
Tokscale:实时看 Token 消耗
这是个 CLI 工具,TUI 界面,能看到全局所有平台的 Token 开销,也能单独过滤 Hermes。不用永久安装,直接起:
# 推荐方式
npx tokscale@latest
# 或者用 Bun,更轻
bunx tokscale@latest常用命令:
tokscale # 全局总览
tokscale --hermes # 只看 Hermes
tokscale --hermes --week # 近 7 天趋势
tokscale --json # 导出 JSON,方便接监控
tokscale models # 按模型统计hermes-hudui:Web UI,比官方 dashboard 强
支持按模型、组件、会话拆解成本,WebSocket 实时更新,手机也能看。
git clone https://github.com/joeynyc/hermes-hudui.git
cd hermes-hudui
./install.sh
hermes-hudui起来之后浏览器开 http://localhost:3001。第一次跑完,下次就 source venv/bin/activate && hermes-hudui 就行。
界面有 14 个 Tab,Costs、Patterns、Memory 这些都有,能清楚看到 Token 到底烧在哪个技能、哪次会话、哪个工具调用上。
RTK:压终端输出的 Token
Rust 写的,零依赖。ls、git status、cargo test 这类命令的输出经常动辄几千 Token,RTK 能把这些压掉 60% 到 90%。
# Homebrew 最省事
brew install rtk
# 或者一键脚本,Linux / macOS / Windows WSL 都行
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/refs/heads/master/install.sh | sh验证:
rtk --version
rtk gain接到 Hermes 里:
rtk init -g这步会装全局 Hook 和 RTK.md,重启 Hermes 之后,所有 shell 调用自动走 RTK。
日常直接拿 rtk 替换原命令用:
rtk ls . # 精简目录树,省 80%
rtk git status # 压缩 git 输出,省 80%
rtk git diff # 精简 diff,省 75%
rtk cargo test # 只显示失败项,省 90%
rtk read main.rs # 自动去注释和空行
rtk gain --graph # 看节省曲线跑几天 rtk gain --graph,那条曲线挺让人上头的。
hermes-agent-self-evolution:让 Agent 自己进化
官方出的自进化工具,底层是 DSPy 加 GEPA 遗传算法,能自动优化 Skill、System Prompt 和工具描述。
git clone https://github.com/NousResearch/hermes-agent-self-evolution.git
cd hermes-agent-self-evolution
pip install -e ".[dev]"配置指向你自己的 Hermes:
export HERMES_AGENT_REPO=~/.hermes/hermes-agent然后跑进化命令,它会自己跑一轮一轮地优化指定的 Skill。第一次跑建议挑一个不重要的 Skill 试手,进化过程会消耗一些 Token。
Skill 扩展
直接装 wondelai 的 380 个跨平台 Skill 打底,再从 awesome-agent-skills 那一千多个里按需挑,基本够用很久了。
第七步:收藏两个入口就够了
awesome-hermes-agent:一站式资源汇总hermes-ecosystem:80 多个工具的可视化地图
后面想加什么,先去这两个地方翻一遍,省得自己到处搜。
按这七步走下来,Hermes 就是另一个东西了。花的时间其实不多,半天够。真正让它跑起来有感觉的,是 Hindsight 和 RTK 这两个——前者让它有记性,后者让你有钱继续用。