=== 采样结果统计 === 题目标记分布: hard_early_stop: 1494 道 (44.7%) easy_all_correct: 1807 道 (54.1%) unknown_fallback: 42 道 (1.3%) 关键指标: 早停困难题(答错后早停): 1494 道 全正确简单题(所有采样都答对): 1807 道 早停率: 44.7% 全正确率: 54.1% === API调用统计 === 总生成调用: 13850 总验证调用: 13850 总API调用: 27700 平均每题调用: 8.3 早停题目平均采样次数: 2.0 全正确题目平均采样次数: 6.0 === 各题型采样效果 === short_answer: 早停率: 36.9% (721/1954) 全正确率: 62.4% (1219/1954) multiple_choice: 早停率: 58.8% (154/262) 全正确率: 39.3% (103/262) calculation: 早停率: 66.0% (578/876) 全正确率: 31.4% (275/876) true_false: 早停率: 16.3% (41/251) 全正确率: 83.7% (210/251) === 生成成功率统计 === 总共处理: 3343 道题目 成功生成: 3343 道 使用备用方案: 0 道 成功率: 100.00% === 策略效果评估 === ✅ 早停策略有效:成功识别出困难题目 困难题目数量: 1494 道 早停题目示例: 1. short_answer题,第1次采样后早停 2. short_answer题,第1次采样后早停 3. short_answer题,第3次采样后早停 ✅ 全采样策略有效:识别出简单题目 简单题目数量: 1807 道 全正确题目示例: 1. short_answer题,6次采样全部答对 2. short_answer题,6次采样全部答对 3. true_false题,6次采样全部答对 === 优化建议 === • API调用次数偏高,建议: - 优化提示词提高首次生成质量 - 考虑减少最大采样次数 - 改进验证逻辑减少失败率