59 lines
1.6 KiB
Plaintext
59 lines
1.6 KiB
Plaintext
=== 采样结果统计 ===
|
||
题目标记分布:
|
||
hard_early_stop: 1494 道 (44.7%)
|
||
easy_all_correct: 1807 道 (54.1%)
|
||
unknown_fallback: 42 道 (1.3%)
|
||
|
||
关键指标:
|
||
早停困难题(答错后早停): 1494 道
|
||
全正确简单题(所有采样都答对): 1807 道
|
||
早停率: 44.7%
|
||
全正确率: 54.1%
|
||
|
||
=== API调用统计 ===
|
||
总生成调用: 13850
|
||
总验证调用: 13850
|
||
总API调用: 27700
|
||
平均每题调用: 8.3
|
||
早停题目平均采样次数: 2.0
|
||
全正确题目平均采样次数: 6.0
|
||
|
||
=== 各题型采样效果 ===
|
||
short_answer:
|
||
早停率: 36.9% (721/1954)
|
||
全正确率: 62.4% (1219/1954)
|
||
multiple_choice:
|
||
早停率: 58.8% (154/262)
|
||
全正确率: 39.3% (103/262)
|
||
calculation:
|
||
早停率: 66.0% (578/876)
|
||
全正确率: 31.4% (275/876)
|
||
true_false:
|
||
早停率: 16.3% (41/251)
|
||
全正确率: 83.7% (210/251)
|
||
|
||
=== 生成成功率统计 ===
|
||
总共处理: 3343 道题目
|
||
成功生成: 3343 道
|
||
使用备用方案: 0 道
|
||
成功率: 100.00%
|
||
|
||
=== 策略效果评估 ===
|
||
✅ 早停策略有效:成功识别出困难题目
|
||
困难题目数量: 1494 道
|
||
早停题目示例:
|
||
1. short_answer题,第1次采样后早停
|
||
2. short_answer题,第1次采样后早停
|
||
3. short_answer题,第3次采样后早停
|
||
✅ 全采样策略有效:识别出简单题目
|
||
简单题目数量: 1807 道
|
||
全正确题目示例:
|
||
1. short_answer题,6次采样全部答对
|
||
2. short_answer题,6次采样全部答对
|
||
3. true_false题,6次采样全部答对
|
||
|
||
=== 优化建议 ===
|
||
• API调用次数偏高,建议:
|
||
- 优化提示词提高首次生成质量
|
||
- 考虑减少最大采样次数
|
||
- 改进验证逻辑减少失败率 |