2023全球校园人工智能算法精英大赛-电力大模型问答(已结束)

AI赛事1年前 (2024)更新 郑亿Oscar
5,662 0 0

电力大模型问答挑战赛比赛规则

一、赛题说明

当前大语言模型在众多任务上都展现出强大的问答能力, 但在知识密集型领域往往表现欠佳,如何提升大模型在知识密集 领域的能力是一个有趣的问题。电力是一个典型的知识密集型领 域,同时涉及电子、物理、化学、数学等学科知识,是一个良好 的衡量大模型知识密集型能力的场景,一个优秀的电力问答大模 型需要同时掌握多个学科背景知识,并具备在此基础上进行归纳 和推理的能力。

本次比赛要求参赛选手以 ChatGLM2-6B 模型为核心制作一 个问答系统,回答电力领域相关的问题。题目类型包含单选题、 多选题和自由问答,下面是题目样例:

单选题样例:

题目:电流对人体的效应由生理参数和电气参数决定。15~100Hz 正弦交流电流反应阈的通用值为(   )。

选项 A:1.5mA         选项 B:2mA          选项 C:0.1mA         选项 D:0.5mA

答案:D

多选题样例:

题目:下列选项中,电力负荷应该为三级负荷的是(  )。

选项 A:中断供电将在经济上造成较大损失的负荷          选项 B:中断供电影响重要用电单位正常工作的负荷

选项 C:一般货梯和自动扶梯                                     选项 D:不属于一级和二级的电力负荷

答案:CD


自由问答样例: 

题目:如果一台$p$对磁极的单叠绕组,其元件电阻为$r_a$,电枢电流为$I_a$,若把它改接为单波绕组,并保持支路电流不 变。试问电枢电阻和电枢电流变为多少?

答:因为$p$对极的单叠绕组有 $2p$条支路并联,所以每 条支路电阻为 $2pr$,$2p$条支路串联后的总电阻为$4p^2ra_$。 改为单波绕组时,则仅有两条支路并联,每条支路电阻为$\frac{1}{2}(4p^2r_a) = 2p^2r_a$

电枢电阻为:$\frac{1}{2}(2p^2r_a) = p^2r_a$,增加到原来 的$p^2$倍,单碟绕组时,支路电流为$\frac{I_a}{2p}$,改为单 波绕组时,支路电流不变,但仅有两条支路,所以总电流为$2 \times \frac{I_a}{2p} = \frac{I_a}{p}$ , 减 少 到 了 原 来 的$\frac{1}{p}$。

除上述样例外,本次比赛所提供数据均为测试集,用于测 试大模型的能力。

比赛不允许使用其他的大语言模型,但可以使用其他大语言模型生成的数据,也可以使用其他公开访问的外部数据来微调 模型。选手需要严格使用大模型进行作答并提交答案,严禁人工 作答,违者取消参赛资格。

二、解题思路

一个简单的解题方式是将题目直接输入到 ChatGLM2-6B 模 型,并构建指令让模型针对对应的题目类型进行作答。升级的做 法是收集电子、物理、化学、数学等学科的背景知识,以检索的 方式检索出和当前问题相关的知识,并作为背景知识输入到模型, 帮助模型进行作答。也可以采用预训练、指令学习将学科背景知 识融入模型,从而提升模型的电力问答能力。

三、评价方式

选手报名成功后,举办方提供问答测试数据,参赛队伍在 本地调试算法。获得模型预测的答案后,参赛队伍在线提交结果, 系统会实时评估并返回成绩,按照评估指标从高到低进行排序。 每个队伍每天的提交次数限制为 3 次。

实时排行榜评分采用 AB 榜形式。比赛期间排行榜仅显示 A榜成绩,B 榜成绩作为最终成绩排名。比赛将会选择选手的最后 一次提交以及选手的 A 榜最高分的模型作为选手 B 榜分数的计 算依据,以这两次提交在 B 榜的最高分进行排名。

评价指标:

单选题得分与多选题得分均按下式计算:
其中 N 表示的是测试集中单选题/多选题对应题型的总数,表示单选题/多选题的单题分值,其中表示的是单题选项命中率, 表示模型回答的选项集合,表示正确选项集合。需要注意的是, 指示函数表示回答选项必须在正确选项中才计分。选项可以少答, 不能多答,多答该题计 0 分。

自由问答的得分按照 ROUGE-L 计算:

其中 M 表示的是测试集中问答题的总数,表示模型给出的 回答,表示参考回答,LCS 即 Longest Common Subsequence(最 大公共子串),表示 QA 题的单题分值。

最终得分的加权公式: 该公式将单选、多选、自由问答的总得分归约到 100 分。四、成绩提交参赛队伍自行调试算法,在线提交结果,结果文件命名为”参赛队名称_result”,以 utf-8 编码格式保存。文件每行是一个json 串,包含”ID”,”answer”。比赛期间不需要提交模型。其中, 单选题回答”A”-“D”中的一项(例如,A),多选题回答选项以”、”分割(例如,A、C),问答题的答案为一段连续文本。

赛题成绩提交截止日期后,入围队伍需要上交代码、模型、 说明文件(详细描述模型的复现过程)。只有模型复现成功的队 伍可以进入比赛的下一阶段。对于结果无法复现的队伍,将取消 比赛资格,并按照排行榜顺次选取队伍入围。

结果提交网站及后续相关通知详见 QQ 群通知。

五、省赛说明

为了确保比赛的公平和公正,参赛选手需要在省赛截止日 期之前提交结果文件。赛事主办方将核实问答结果的可复现性, 未通过验证的团队将被取消成绩。赛题成绩提交截止日期后,对 所有通过验证的队伍按照同一省赛区内参赛团队比赛成绩排名确 定省赛一、二、三等奖获奖名单(以参赛团队队长所在高校为 准)。若某省赛赛区参赛团队数量少于 50 支则合并后统一按成 绩进行排名。省赛一、二等奖参赛团队进入全国总决赛。

六、总决赛

进入全国总决赛团队最终提交成绩、代码及解题思路说明 (未通过可复现性验证的团队将被取消成绩),经大赛组委会组 织线上/线下答辩,最终参赛选手总决赛成绩,并按照成绩排名 (不划分省赛区)确定全国赛一、二、三等奖最终获奖名单。大 赛组委会根据赛事实际情况,举办全国总决赛颁奖典礼。

七、联系方式

参赛 QQ 群:852305141

© 版权声明

相关文章