feat: 更新 Jade/VESTA 任务定义 + 最终评测清单
- Jade: 15个任务JSON更新 (instruction细化 + metadata.steps详细展开) - VESTA: 10个任务JSON重构 (统一使用NaCl.cif/anatase_TiO2.cif + 步骤重写) - VESTA: 删除task1, 新增2个CIF数据文件 - 新增 test_final.json (11 jade + 10 vesta = 21 tasks) - run_proxmox.sh: MODEL→gpt-5.4, MAX_STEPS→35, TEST_META→test_final.json
This commit is contained in:
@@ -12,15 +12,15 @@ export PROXMOX_VM_IP="10.10.17.10"
|
||||
|
||||
# ---------- LLM API 配置 ----------
|
||||
# OpenAI 兼容代理(同时用于 Agent 模型和 Eval 模型)
|
||||
export OPENAI_API_KEY="sk-EQGuvk0rS7EG4Cu22cF6D5Cc3a324c88B2E2D432Bc59Bb17"
|
||||
export OPENAI_API_KEY="sk-5zk3CL73E2DsNyMn5a6dA357B6214eEd9240A674Ec0555Be"
|
||||
export OPENAI_BASE_URL="https://vip.apiyi.com/v1"
|
||||
|
||||
# ---------- 评测参数(按需修改) ----------
|
||||
PROVIDER="proxmox"
|
||||
VM_ID="102" # Proxmox 上的 VM ID
|
||||
MODEL="gpt-5.2-chat-latest" # Agent 模型
|
||||
MODEL="gpt-5.4" # Agent 模型
|
||||
EVAL_MODEL="gemini-3.1-pro-preview" # 评测模型
|
||||
MAX_STEPS=50 # 每个任务最大步数(公共评测指南推荐50)
|
||||
MAX_STEPS=35 # 每个任务最大步数(公共评测指南推荐50)
|
||||
SLEEP_AFTER_EXEC=3 # 每步执行后等待秒数
|
||||
TEMPERATURE=0.5 # 生成温度(越低越稳定可复现)
|
||||
TOP_P=0.9 # nucleus sampling
|
||||
@@ -31,10 +31,10 @@ ACTION_SPACE="pyautogui" # 动作空间
|
||||
SCREEN_WIDTH=1920 # 屏幕宽度
|
||||
SCREEN_HEIGHT=1080 # 屏幕高度
|
||||
RESULT_DIR="/Volumes/Castor/课题/results" # 结果输出目录
|
||||
TEST_META="evaluation_examples/test_curated.json" # 评测任务列表
|
||||
DOMAIN="jade" # 评测领域
|
||||
TEST_META="evaluation_examples/test_final.json" # 评测任务列表
|
||||
DOMAIN="vesta" # 评测领域
|
||||
SNAPSHOT_NAME="snapshot" # 快照名称(需提前创建)
|
||||
INJECT_STEPS=false # 是否注入教程步骤到 Agent prompt(baseline 不注入)
|
||||
INJECT_STEPS=false # 是否注入教程步骤到 Agent prompt(baseline 不注入)
|
||||
|
||||
# ---------- 预检查 ----------
|
||||
echo "=== 预检查 ==="
|
||||
|
||||
Reference in New Issue
Block a user