生成选项采用上采样的方式,采样6次并让模型进行回答;将早停的认为困难,全部采样都回答正确的认为简单。基于此构造新的stepy
This commit is contained in:
59
layer2/PGEE/code/stepy_statistic.txt
Normal file
59
layer2/PGEE/code/stepy_statistic.txt
Normal file
@@ -0,0 +1,59 @@
|
||||
=== 采样结果统计 ===
|
||||
题目标记分布:
|
||||
hard_early_stop: 1494 道 (44.7%)
|
||||
easy_all_correct: 1807 道 (54.1%)
|
||||
unknown_fallback: 42 道 (1.3%)
|
||||
|
||||
关键指标:
|
||||
早停困难题(答错后早停): 1494 道
|
||||
全正确简单题(所有采样都答对): 1807 道
|
||||
早停率: 44.7%
|
||||
全正确率: 54.1%
|
||||
|
||||
=== API调用统计 ===
|
||||
总生成调用: 13850
|
||||
总验证调用: 13850
|
||||
总API调用: 27700
|
||||
平均每题调用: 8.3
|
||||
早停题目平均采样次数: 2.0
|
||||
全正确题目平均采样次数: 6.0
|
||||
|
||||
=== 各题型采样效果 ===
|
||||
short_answer:
|
||||
早停率: 36.9% (721/1954)
|
||||
全正确率: 62.4% (1219/1954)
|
||||
multiple_choice:
|
||||
早停率: 58.8% (154/262)
|
||||
全正确率: 39.3% (103/262)
|
||||
calculation:
|
||||
早停率: 66.0% (578/876)
|
||||
全正确率: 31.4% (275/876)
|
||||
true_false:
|
||||
早停率: 16.3% (41/251)
|
||||
全正确率: 83.7% (210/251)
|
||||
|
||||
=== 生成成功率统计 ===
|
||||
总共处理: 3343 道题目
|
||||
成功生成: 3343 道
|
||||
使用备用方案: 0 道
|
||||
成功率: 100.00%
|
||||
|
||||
=== 策略效果评估 ===
|
||||
✅ 早停策略有效:成功识别出困难题目
|
||||
困难题目数量: 1494 道
|
||||
早停题目示例:
|
||||
1. short_answer题,第1次采样后早停
|
||||
2. short_answer题,第1次采样后早停
|
||||
3. short_answer题,第3次采样后早停
|
||||
✅ 全采样策略有效:识别出简单题目
|
||||
简单题目数量: 1807 道
|
||||
全正确题目示例:
|
||||
1. short_answer题,6次采样全部答对
|
||||
2. short_answer题,6次采样全部答对
|
||||
3. true_false题,6次采样全部答对
|
||||
|
||||
=== 优化建议 ===
|
||||
• API调用次数偏高,建议:
|
||||
- 优化提示词提高首次生成质量
|
||||
- 考虑减少最大采样次数
|
||||
- 改进验证逻辑减少失败率
|
||||
Reference in New Issue
Block a user