电力大模型问答挑战赛比赛规则
一、赛题说明
当前大语言模型在众多任务上都展现出强大的问答能力, 但在知识密集型领域往往表现欠佳,如何提升大模型在知识密集 领域的能力是一个有趣的问题。电力是一个典型的知识密集型领 域,同时涉及电子、物理、化学、数学等学科知识,是一个良好 的衡量大模型知识密集型能力的场景,一个优秀的电力问答大模 型需要同时掌握多个学科背景知识,并具备在此基础上进行归纳 和推理的能力。
本次比赛要求参赛选手以 ChatGLM2-6B 模型为核心制作一 个问答系统,回答电力领域相关的问题。题目类型包含单选题、 多选题和自由问答,下面是题目样例:
单选题样例:
题目:电流对人体的效应由生理参数和电气参数决定。15~100Hz 正弦交流电流反应阈的通用值为( )。
选项 A:1.5mA 选项 B:2mA 选项 C:0.1mA 选项 D:0.5mA
答案:D
多选题样例:
题目:下列选项中,电力负荷应该为三级负荷的是( )。
选项 A:中断供电将在经济上造成较大损失的负荷 选项 B:中断供电影响重要用电单位正常工作的负荷
选项 C:一般货梯和自动扶梯 选项 D:不属于一级和二级的电力负荷
答案:CD
自由问答样例:
题目:如果一台$p$对磁极的单叠绕组,其元件电阻为$r_a$,电枢电流为$I_a$,若把它改接为单波绕组,并保持支路电流不 变。试问电枢电阻和电枢电流变为多少?
答:因为$p$对极的单叠绕组有 $2p$条支路并联,所以每 条支路电阻为 $2pr$,$2p$条支路串联后的总电阻为$4p^2ra_$。 改为单波绕组时,则仅有两条支路并联,每条支路电阻为$\frac{1}{2}(4p^2r_a) = 2p^2r_a$
电枢电阻为:$\frac{1}{2}(2p^2r_a) = p^2r_a$,增加到原来 的$p^2$倍,单碟绕组时,支路电流为$\frac{I_a}{2p}$,改为单 波绕组时,支路电流不变,但仅有两条支路,所以总电流为$2 \times \frac{I_a}{2p} = \frac{I_a}{p}$ , 减 少 到 了 原 来 的$\frac{1}{p}$。
除上述样例外,本次比赛所提供数据均为测试集,用于测 试大模型的能力。
比赛不允许使用其他的大语言模型,但可以使用其他大语言模型生成的数据,也可以使用其他公开访问的外部数据来微调 模型。选手需要严格使用大模型进行作答并提交答案,严禁人工 作答,违者取消参赛资格。
二、解题思路
一个简单的解题方式是将题目直接输入到 ChatGLM2-6B 模 型,并构建指令让模型针对对应的题目类型进行作答。升级的做 法是收集电子、物理、化学、数学等学科的背景知识,以检索的 方式检索出和当前问题相关的知识,并作为背景知识输入到模型, 帮助模型进行作答。也可以采用预训练、指令学习将学科背景知 识融入模型,从而提升模型的电力问答能力。
三、评价方式
选手报名成功后,举办方提供问答测试数据,参赛队伍在 本地调试算法。获得模型预测的答案后,参赛队伍在线提交结果, 系统会实时评估并返回成绩,按照评估指标从高到低进行排序。 每个队伍每天的提交次数限制为 3 次。
实时排行榜评分采用 AB 榜形式。比赛期间排行榜仅显示 A榜成绩,B 榜成绩作为最终成绩排名。比赛将会选择选手的最后 一次提交以及选手的 A 榜最高分的模型作为选手 B 榜分数的计 算依据,以这两次提交在 B 榜的最高分进行排名。
评价指标:
单选题得分与多选题得分均按下式计算:
其中 N 表示的是测试集中单选题/多选题对应题型的总数,表示单选题/多选题的单题分值,其中表示的是单题选项命中率, 表示模型回答的选项集合,表示正确选项集合。需要注意的是, 指示函数表示回答选项必须在正确选项中才计分。选项可以少答, 不能多答,多答该题计 0 分。
自由问答的得分按照 ROUGE-L 计算:
其中 M 表示的是测试集中问答题的总数,表示模型给出的 回答,表示参考回答,LCS 即 Longest Common Subsequence(最 大公共子串),表示 QA 题的单题分值。
最终得分的加权公式: 该公式将单选、多选、自由问答的总得分归约到 100 分。四、成绩提交参赛队伍自行调试算法,在线提交结果,结果文件命名为”参赛队名称_result”,以 utf-8 编码格式保存。文件每行是一个json 串,包含”ID”,”answer”。比赛期间不需要提交模型。其中, 单选题回答”A”-“D”中的一项(例如,A),多选题回答选项以”、”分割(例如,A、C),问答题的答案为一段连续文本。
赛题成绩提交截止日期后,入围队伍需要上交代码、模型、 说明文件(详细描述模型的复现过程)。只有模型复现成功的队 伍可以进入比赛的下一阶段。对于结果无法复现的队伍,将取消 比赛资格,并按照排行榜顺次选取队伍入围。
结果提交网站及后续相关通知详见 QQ 群通知。
五、省赛说明
为了确保比赛的公平和公正,参赛选手需要在省赛截止日 期之前提交结果文件。赛事主办方将核实问答结果的可复现性, 未通过验证的团队将被取消成绩。赛题成绩提交截止日期后,对 所有通过验证的队伍按照同一省赛区内参赛团队比赛成绩排名确 定省赛一、二、三等奖获奖名单(以参赛团队队长所在高校为 准)。若某省赛赛区参赛团队数量少于 50 支则合并后统一按成 绩进行排名。省赛一、二等奖参赛团队进入全国总决赛。
六、总决赛
进入全国总决赛团队最终提交成绩、代码及解题思路说明 (未通过可复现性验证的团队将被取消成绩),经大赛组委会组 织线上/线下答辩,最终参赛选手总决赛成绩,并按照成绩排名 (不划分省赛区)确定全国赛一、二、三等奖最终获奖名单。大 赛组委会根据赛事实际情况,举办全国总决赛颁奖典礼。
七、联系方式
参赛 QQ 群:852305141