|
|
581ccc4dfd
|
data: 修订 Origin task2/3/4/5/8/9/11/12 的 instruction 与 steps
将部分任务从不可行路径(如 View→Formula Bar)改为实际可执行的操作路径(如 Window→Script Window),同步更新 steps 描述与 sleep 时长。
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
|
2026-03-30 17:58:52 +08:00 |
|
|
|
d9986142b4
|
fix(origin): 修复任务配置缺少输入文件及task11设计错误
- task2/3/5/9/11: 补充upload_file+launch传入example.xlsx
- task11: 修正instruction菜单路径,steps补充建图前置步骤
|
2026-03-27 16:49:24 +08:00 |
|
|
|
252d2f79ce
|
fix(eval): 修复vllm_eval截图排序bug并对齐reeval逻辑
- 修复_load_screenshots_from_dir中截图按字符串排序导致step_9被误判为最终帧的bug,改为数字排序
- 对齐reeval.py的prompt逻辑:明确要求模型优先检查最终截图(STEP 1 EXAMINE FINAL SCREENSHOT FIRST)
- 评估temperature从0.7降至0.2提升一致性
- 新增batch_reeval.py:基于test_final.json批量重评测已有轨迹
- 新增reeval.py:单任务重评测脚本(final-frame-anchored evaluation)
- test_final.json新增avogadro(11题)和origin(8题)
|
2026-03-27 14:34:32 +08:00 |
|
|
|
a38d2faec3
|
修改了origin启动地址
|
2026-03-26 10:46:29 +08:00 |
|
|
|
ae202be7b9
|
Update origin task
|
2026-03-19 17:58:11 +08:00 |
|
|
|
9431bd5bfc
|
data: 精炼已有 avogadro/imagej/origin/ovito/pymol/vesta 任务的 metadata steps
|
2026-03-04 10:43:49 +08:00 |
|
|
|
9899d4a0c7
|
feat: 新增科研软件 benchmark 任务数据
- 新增 avogadro/imagej/jade/origin/ovito/pymol/vesta 等科研软件任务 JSON
- 修改 vllm_eval.py,修改图片文件名称为第x步
- desktop_env.py 添加额外数据参数 config 和 metadata
|
2026-02-25 15:19:36 +08:00 |
|