Kaggle赛题解析:恢复大模型的提示词

  • 赛题名称:LLM Prompt Recovery
  • 赛题任务:恢复大模型的提示词
  • 赛题类型:大语言模型
  • 赛题链接:point_down:

LLM Prompt Recovery | Kaggle

赛题背景

NLP 工作流程越来越多地涉及重写文本,但关于如何有效使用LLM仍有很多东西需要学习。这次机器学习竞赛旨在以一种新颖的方式深入研究这个问题。

本次比赛的挑战是恢复用于重写给定文本的 LLM 提示。参赛选手将针对包含 1300 多个原始文本的数据集进行测试,每个文本都与来自 Google 新开放模型系列 Gemma 的重写版本配对。

赛题任务

大语言模型(LLM)通常用于重写文本或对文本进行风格更改。本次比赛的目标是恢复用于转换给定文本的 LLM 提示。

评价指标

对于提交中的每一行和相应的groundtruth,使用sentence-t5-base来计算相应的嵌入向量。每个预测/预期对的分数是使用锐化余弦相似度(使用指数 3)计算的。SCS 用于减弱通过嵌入向量为错误答案给出的慷慨分数。不要将任何 rewrite_prompt 留空,因为空答案将引发错误。

提交文件应包含标题并具有以下格式:

id,rewrite_prompt
000aaa,"Rewrite this essay but do it using the writing style of Dr. Seuss"
111bbb,"Rewrite this essay but do it using the writing style of William Shakespeare"
222ccc,"Rewrite this essay but do it using the writing style of Tupac Shakur"
...

赛题时间轴

  • 2024 年 2 月 27 日 - 开始日期
  • 2024 年 4 月 9 日 - 报名截止日期
  • 2024 年 4 月 9 日 - 团队合并截止日期
  • 2024 年 4 月 16 日 - 最终提交截止日期

赛题数据集

这个竞赛数据集是关于文本重写的,数据集中包含了文本段落,这些段落是由名为Gemma 7b的LLM(大型语言模型)根据一些未公开的提示进行了重写。竞赛的目标是确定使用了哪些提示来生成这些重写文本。

  • train.csvtest.csv:包含以下列:
    • id:每行的唯一标识符。
    • original_text:文本段落的原始提示。
    • rewrite_prompt:提供给Gemma的提示。
    • rewritten_text:Gemma生成的重写文本。
  • sample_submission.csv:提交文件的示例,格式正确,包含以下列:
    • id:行的唯一标识符。
    • rewrite_prompt:你需要提交的重写提示。

需要注意的是:

  • 训练集和测试集中仅提供了一个示例。
  • 你需要生成更多的数据来训练你的模型。你可以参考提供的示例 notebook 来生成更多的数据。