本示例将 DeepEyes 奖励函数和多轮工具环境(zoom/rotate)集成到 Relax 框架中,用于训练视觉语言模型(VLM)的工具使用能力。
DeepEyes 是一个多轮交互式视觉问答环境,模型可以通过调用工具(如缩放、旋转图像)来更好地理解和回答问题。
- 模块:
examples.deepeyes.rollout.generate - 功能: 实现自定义的多轮交互式采样逻辑
- 文件:
env_deepeyes.py - 功能:
- 解析模型输出的
<tool_call>{...}</tool_call>格式 - 返回
<tool_response>...</tool_response>和更新后的图像 - 支持工具:缩放(zoom)、旋转(rotate)等
- 解析模型输出的
- 文件:
reward_deepeyes.py - 功能:
- 基于 judge 模型的答案质量评分
- 工具调用格式正确性检查
- 综合奖励计算
cd /path_to/Relax/scripts
bash benchmark.sh run_deepeyes或安装benchmark.sh 中的依赖后,直接运行:
bash examples/deepeyes/run_deepeyes.shexamples/deepeyes/
├── README.md # 本文档
├── run_deepeyes.sh # 训练启动脚本
├── base_env.py # 环境实现基类
├── env_deepeyes.py # 环境实现
├── reward_deepeyes.py # 奖励函数实现
└── rollout.py # 多轮采样逻辑