feat: 更新 Jade/VESTA 任务定义 + 最终评测清单

- Jade: 15个任务JSON更新 (instruction细化 + metadata.steps详细展开)
- VESTA: 10个任务JSON重构 (统一使用NaCl.cif/anatase_TiO2.cif + 步骤重写)
- VESTA: 删除task1, 新增2个CIF数据文件
- 新增 test_final.json (11 jade + 10 vesta = 21 tasks)
- run_proxmox.sh: MODEL→gpt-5.4, MAX_STEPS→35, TEST_META→test_final.json
This commit is contained in:
2026-03-11 11:02:26 +08:00
parent d71f1f976d
commit a943c1e961
30 changed files with 318 additions and 243 deletions

View File

@@ -12,15 +12,15 @@ export PROXMOX_VM_IP="10.10.17.10"
# ---------- LLM API 配置 ----------
# OpenAI 兼容代理(同时用于 Agent 模型和 Eval 模型)
export OPENAI_API_KEY="sk-EQGuvk0rS7EG4Cu22cF6D5Cc3a324c88B2E2D432Bc59Bb17"
export OPENAI_API_KEY="sk-5zk3CL73E2DsNyMn5a6dA357B6214eEd9240A674Ec0555Be"
export OPENAI_BASE_URL="https://vip.apiyi.com/v1"
# ---------- 评测参数(按需修改) ----------
PROVIDER="proxmox"
VM_ID="102" # Proxmox 上的 VM ID
MODEL="gpt-5.2-chat-latest" # Agent 模型
MODEL="gpt-5.4" # Agent 模型
EVAL_MODEL="gemini-3.1-pro-preview" # 评测模型
MAX_STEPS=50 # 每个任务最大步数公共评测指南推荐50
MAX_STEPS=35 # 每个任务最大步数公共评测指南推荐50
SLEEP_AFTER_EXEC=3 # 每步执行后等待秒数
TEMPERATURE=0.5 # 生成温度(越低越稳定可复现)
TOP_P=0.9 # nucleus sampling
@@ -31,10 +31,10 @@ ACTION_SPACE="pyautogui" # 动作空间
SCREEN_WIDTH=1920 # 屏幕宽度
SCREEN_HEIGHT=1080 # 屏幕高度
RESULT_DIR="/Volumes/Castor/课题/results" # 结果输出目录
TEST_META="evaluation_examples/test_curated.json" # 评测任务列表
DOMAIN="jade" # 评测领域
TEST_META="evaluation_examples/test_final.json" # 评测任务列表
DOMAIN="vesta" # 评测领域
SNAPSHOT_NAME="snapshot" # 快照名称(需提前创建)
INJECT_STEPS=false # 是否注入教程步骤到 Agent promptbaseline 不注入)
INJECT_STEPS=false # 是否注入教程步骤到 Agent promptbaseline 不注入)
# ---------- 预检查 ----------
echo "=== 预检查 ==="