生成选项采用上采样的方式,采样6次并让模型进行回答;将早停的认为困难,全部采样都回答正确的认为简单。基于此构造新的stepy

This commit is contained in:
lzy
2025-06-02 16:19:18 +08:00
parent d219b9b0c0
commit abeacaac3e
8 changed files with 169413 additions and 11331 deletions

View File

@@ -0,0 +1,59 @@
=== 采样结果统计 ===
题目标记分布:
hard_early_stop: 1494 道 (44.7%)
easy_all_correct: 1807 道 (54.1%)
unknown_fallback: 42 道 (1.3%)
关键指标:
早停困难题(答错后早停): 1494 道
全正确简单题(所有采样都答对): 1807 道
早停率: 44.7%
全正确率: 54.1%
=== API调用统计 ===
总生成调用: 13850
总验证调用: 13850
总API调用: 27700
平均每题调用: 8.3
早停题目平均采样次数: 2.0
全正确题目平均采样次数: 6.0
=== 各题型采样效果 ===
short_answer:
早停率: 36.9% (721/1954)
全正确率: 62.4% (1219/1954)
multiple_choice:
早停率: 58.8% (154/262)
全正确率: 39.3% (103/262)
calculation:
早停率: 66.0% (578/876)
全正确率: 31.4% (275/876)
true_false:
早停率: 16.3% (41/251)
全正确率: 83.7% (210/251)
=== 生成成功率统计 ===
总共处理: 3343 道题目
成功生成: 3343 道
使用备用方案: 0 道
成功率: 100.00%
=== 策略效果评估 ===
✅ 早停策略有效:成功识别出困难题目
困难题目数量: 1494 道
早停题目示例:
1. short_answer题第1次采样后早停
2. short_answer题第1次采样后早停
3. short_answer题第3次采样后早停
✅ 全采样策略有效:识别出简单题目
简单题目数量: 1807 道
全正确题目示例:
1. short_answer题6次采样全部答对
2. short_answer题6次采样全部答对
3. true_false题6次采样全部答对
=== 优化建议 ===
• API调用次数偏高建议:
- 优化提示词提高首次生成质量
- 考虑减少最大采样次数
- 改进验证逻辑减少失败率