sci-gui-agent-benchmark

Author	SHA1	Message	Date
lizhanyuan	252d2f79ce	fix(eval): 修复vllm_eval截图排序bug并对齐reeval逻辑 - 修复_load_screenshots_from_dir中截图按字符串排序导致step_9被误判为最终帧的bug，改为数字排序 - 对齐reeval.py的prompt逻辑：明确要求模型优先检查最终截图（STEP 1 EXAMINE FINAL SCREENSHOT FIRST） - 评估temperature从0.7降至0.2提升一致性 - 新增batch_reeval.py：基于test_final.json批量重评测已有轨迹 - 新增reeval.py：单任务重评测脚本（final-frame-anchored evaluation） - test_final.json新增avogadro(11题)和origin(8题)	2026-03-27 14:34:32 +08:00
lizhanyuan	349f2142fb	fix: vllm_eval 默认使用原始分辨率进行评估	2026-03-11 11:06:01 +08:00
lizhanyuan	d71f1f976d	feat: vllm_eval 关键帧采样 + Gemini OpenAI 代理支持 - vllm_eval.py: 新增 _sample_key_frames 关键帧采样函数 - vllm_eval.py: 当截图超过 max_eval_images 时均匀采样 - vllm_eval.py: Gemini 模型支持通过 OpenAI 兼容代理调用 - test_single.json: 更新测试任务配置	2026-03-04 16:39:24 +08:00
lizhanyuan	9899d4a0c7	feat: 新增科研软件 benchmark 任务数据 - 新增 avogadro/imagej/jade/origin/ovito/pymol/vesta 等科研软件任务 JSON - 修改 vllm_eval.py，修改图片文件名称为第x步 - desktop_env.py 添加额外数据参数 config 和 metadata	2026-02-25 15:19:36 +08:00
cui0711	3890ee5fc3	fix(vllm_eval): add image compression to prevent 413 error with large max_steps	2026-02-09 14:24:59 +08:00
cui0711	9bc54c0a66	feat(vllm_eval): add structured JSON response format with step analysis	2026-02-09 13:58:14 +08:00
cui0711	dd58a1de03	feat(evaluator): add vision-language model evaluator	2026-02-05 16:52:35 +08:00

7 Commits