|
|
2836981670
|
data: 修订 Avogadro 任务数据并同步 test_final
- 删除无法稳定复现的 building-organic-molecules_task4 和 using-qtaim-and-wfn_task2
- naming-a-molecule_task1 / viewing-electrostatic-potential_task1 新增 upload_file 步骤,补全 input_files 并修正菜单路径
- building-metal-complexes_task7 修正 steps 重复步骤编号
- test_final.json 移除已删任务,新增 jade9 section
|
2026-04-04 19:24:41 +08:00 |
|
|
|
252d2f79ce
|
fix(eval): 修复vllm_eval截图排序bug并对齐reeval逻辑
- 修复_load_screenshots_from_dir中截图按字符串排序导致step_9被误判为最终帧的bug,改为数字排序
- 对齐reeval.py的prompt逻辑:明确要求模型优先检查最终截图(STEP 1 EXAMINE FINAL SCREENSHOT FIRST)
- 评估temperature从0.7降至0.2提升一致性
- 新增batch_reeval.py:基于test_final.json批量重评测已有轨迹
- 新增reeval.py:单任务重评测脚本(final-frame-anchored evaluation)
- test_final.json新增avogadro(11题)和origin(8题)
|
2026-03-27 14:34:32 +08:00 |
|
|
|
4e192cf013
|
Save local changes before pulling
|
2026-03-26 10:52:22 +08:00 |
|
|
|
04089fa218
|
Save local changes before pulling
|
2026-03-26 10:50:07 +08:00 |
|
|
|
c9912ad54c
|
data: 删除 ovito remote_file_access/rendering 任务,更新 test_final.json
|
2026-03-25 23:27:47 +08:00 |
|
|
|
970d430dcf
|
feat: 本地修改 agent.py / run_proxmox / chrome tasks
|
2026-03-25 23:27:47 +08:00 |
|
|
|
a943c1e961
|
feat: 更新 Jade/VESTA 任务定义 + 最终评测清单
- Jade: 15个任务JSON更新 (instruction细化 + metadata.steps详细展开)
- VESTA: 10个任务JSON重构 (统一使用NaCl.cif/anatase_TiO2.cif + 步骤重写)
- VESTA: 删除task1, 新增2个CIF数据文件
- 新增 test_final.json (11 jade + 10 vesta = 21 tasks)
- run_proxmox.sh: MODEL→gpt-5.4, MAX_STEPS→35, TEST_META→test_final.json
|
2026-03-11 11:02:26 +08:00 |
|