Files
MatBench/layer2/PGEE/code/stepy_statistic.txt

59 lines
1.6 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

=== 采样结果统计 ===
题目标记分布:
hard_early_stop: 1494 道 (44.7%)
easy_all_correct: 1807 道 (54.1%)
unknown_fallback: 42 道 (1.3%)
关键指标:
早停困难题(答错后早停): 1494 道
全正确简单题(所有采样都答对): 1807 道
早停率: 44.7%
全正确率: 54.1%
=== API调用统计 ===
总生成调用: 13850
总验证调用: 13850
总API调用: 27700
平均每题调用: 8.3
早停题目平均采样次数: 2.0
全正确题目平均采样次数: 6.0
=== 各题型采样效果 ===
short_answer:
早停率: 36.9% (721/1954)
全正确率: 62.4% (1219/1954)
multiple_choice:
早停率: 58.8% (154/262)
全正确率: 39.3% (103/262)
calculation:
早停率: 66.0% (578/876)
全正确率: 31.4% (275/876)
true_false:
早停率: 16.3% (41/251)
全正确率: 83.7% (210/251)
=== 生成成功率统计 ===
总共处理: 3343 道题目
成功生成: 3343 道
使用备用方案: 0 道
成功率: 100.00%
=== 策略效果评估 ===
✅ 早停策略有效:成功识别出困难题目
困难题目数量: 1494 道
早停题目示例:
1. short_answer题第1次采样后早停
2. short_answer题第1次采样后早停
3. short_answer题第3次采样后早停
✅ 全采样策略有效:识别出简单题目
简单题目数量: 1807 道
全正确题目示例:
1. short_answer题6次采样全部答对
2. short_answer题6次采样全部答对
3. true_false题6次采样全部答对
=== 优化建议 ===
• API调用次数偏高建议:
- 优化提示词提高首次生成质量
- 考虑减少最大采样次数
- 改进验证逻辑减少失败率