=== 采样结果统计 ===
题目标记分布:
  hard_early_stop: 1494 道 (44.7%)
  easy_all_correct: 1807 道 (54.1%)
  unknown_fallback: 42 道 (1.3%)

关键指标:
  早停困难题（答错后早停）: 1494 道
  全正确简单题（所有采样都答对）: 1807 道
  早停率: 44.7%
  全正确率: 54.1%

=== API调用统计 ===
总生成调用: 13850
总验证调用: 13850
总API调用: 27700
平均每题调用: 8.3
早停题目平均采样次数: 2.0
全正确题目平均采样次数: 6.0

=== 各题型采样效果 ===
short_answer:
  早停率: 36.9% (721/1954)
  全正确率: 62.4% (1219/1954)
multiple_choice:
  早停率: 58.8% (154/262)
  全正确率: 39.3% (103/262)
calculation:
  早停率: 66.0% (578/876)
  全正确率: 31.4% (275/876)
true_false:
  早停率: 16.3% (41/251)
  全正确率: 83.7% (210/251)

=== 生成成功率统计 ===
总共处理: 3343 道题目
成功生成: 3343 道
使用备用方案: 0 道
成功率: 100.00%

=== 策略效果评估 ===
✅ 早停策略有效：成功识别出困难题目
   困难题目数量: 1494 道
   早停题目示例:
     1. short_answer题，第1次采样后早停
     2. short_answer题，第1次采样后早停
     3. short_answer题，第3次采样后早停
✅ 全采样策略有效：识别出简单题目
   简单题目数量: 1807 道
   全正确题目示例:
     1. short_answer题，6次采样全部答对
     2. short_answer题，6次采样全部答对
     3. true_false题，6次采样全部答对

=== 优化建议 ===
• API调用次数偏高，建议:
  - 优化提示词提高首次生成质量
  - 考虑减少最大采样次数
  - 改进验证逻辑减少失败率