超越杯:OpenSeek的超越之旅⸺共创⼤模型挑战赛
Chaoyue Cup: OpenSeek's Journey Beyond - Co-Creation of LLM Challenge Competition

承办单位:北京智源⼈⼯智能研究院


由北京智源研究院发起的OpenSeek开源计划诚邀全球AI开发者共同参与,以技术众创模式挑战构建超越DeepSeek的下⼀代⼤语⾔模型。本赛事作为⼈⼯智能领域的公益性技术攻关项⽬,将通过算法突破,数据⾰新和系统进化三⼤核⼼维度展开协同创新。

背景:

超越杯是琶洲和智源围绕OpenSeek项目打造的大模型挑战赛。OpenSeek是由北京智源人工智能研究院(BAAI)发起的开源项目,旨在联合全球开源社区,推动算法、数据和系统的协同创新,开发出超越DeepSeek的下一代模型。该项目从Bigscience和OPT等大模型计划中汲取灵感,致力于构建一个开源自主的算法创新体系。 自DeepSeek模型开源以来,学术界涌现出众多算法改进和突破,但这些创新往往缺乏完整的代码实现、必要的计算资源和高质量的数据支持。OpenSeek项目期望通过联合开源社区,探索高质量数据集构建机制,推动大模型训练全流程的开源开放,构建创新的训练和推理代码以支持多种AI芯片,促进自主技术创新和应用发展。

比赛任务:

  • 数据配比任务
  • 学习策略任务
  • 框架优化任务

项目开源地址:https://github.com/FlagAI-Open/OpenSeek

赛题描述

本赛题将提供一个 100B token 的多领域数据集(https://huggingface.co/datasets/BAAI/OpenSeek-Pretrain-100B,涵盖中英文网页、书籍、代码、数学、长推理合成等多个领域),参赛选手需设计一套数据配比策略(Data Mixture),即在训练开始前通过启发式或者学习的方法调整不同领域数据在训练数据中的权重,从而在总训练 token 控制相同的前提下,最大化训练模型在下游评测任务上的表现,尤其是模型在下游推理任务上的表现。赛题方鼓励参赛者使用多样的策略来确定数据配比。参赛者可以使用代理模型的方法,例如通过训练小规模的代理模型(Proxy Models)并监控其训练动态,预测不同领域数据对大语言模型推理性能的贡献,从而确定各领域的数据权重;或者使用多种数据质量、多样性打分模型分析不同领域数据对推理任务的影响,从而确定不同领域数据配比。此外,参赛者也可以考虑学习数据配比映射,即学习数据配比与最终训练效果(如验证集loss、下游任务准确率)之间的映射关系,从而反向优化数据组合。


点击进入报名参赛