Kaggle赛题解析:USPTO布尔专利检索

  • 赛题名称:USPTO - Explainable AI for Patent Professionals
  • 赛题类型:自然语言处理
  • 赛题任务:帮助专利人员了解人工智能结果

USPTO - Explainable AI for Patent Professionals | Kaggle

赛题背景

发明受到专利的法律保护。政府向发明人授予专利,在规定期限内提供专有权,以换取公开披露,以促进各个领域的创新。但在发明人获得专利之前,专利专业人员必须评估该发明是否符合必要的标准。人工智能驱动的搜索工具可以帮助专利专业人士简化这些任务。

使用搜索工具时,专利专业人员会收到结果集中文档的某些信息。该信息可能包括在选择所包含信息方面发挥重要作用的文本和元数据片段(例如分类术语)以及定量度量(例如相似性分数)。但是,所提供的信息可能并不总是完全解释为什么返回结果集中的特定文档。专利专业人员最熟悉利用和阅读布尔搜索表达式来确定他们是否已经充分搜索了专利空间。

您的工作将有助于将人工智能和其他搜索工具的结果集翻译成专利专业人员的语言。通过将人工智能的优势与专利专业人员最熟悉的布尔检索系统相结合,您可以帮助使专利检索过程更加高效、有效且可解释。

赛题任务

本次竞赛的目标是生成有效表征专利文档集合特征的布尔搜索查询。您面临的挑战是创建一个查询生成模型,在给定一组相关专利的输入的情况下,输出一个返回同一组专利文档的布尔查询。

针对这一挑战的有效解决方案将使专利专业人员能够以熟悉的语言和语法解释结果,从而更加自信地使用人工智能驱动的搜索功能。您的工作将支持在知识产权生态系统中有效且负责任地采用人工智能技术。

评价方法

使用您查询检索的专利与提供的相关专利集之间的平均精度 50 (mAP@50) 来评估提交的内容。

对于publication_number测试集中的每个专利 ID,您必须生成一个布尔查询,以生成test.csv中指定的所有 50 个目标专利 ID 。您的提交文件必须包含标题并具有以下格式:

publication_number,query
US-2017082634-A1,text AND search
US-2017180470-A1,text AND search
US-2018029544-A1,text AND search
etc.

赛题数据

Patent_metadata.parquet每个专利族中最新专利的元数据。

  • publication_number- 专利标识符。
  • publication_date- 专利公布的日期。
  • filing_date- 专利申请日期。
  • family_id- 专利族的标识符。
  • cpc_codes-涵盖该专利的合作专利分类代码列表。

nearest_neighbors.csv与目标专利最相似的 50 项专利。

Patent_data/[year_month].parquet来自IFI CLAIMS 专利服务和 Google 的 Google Patents 公共数据的专利文本。比赛数据截至 2023 年 7 月。

  • publication_number
  • title- 专利标题的文本。
  • abstract- 专利摘要的文本。
  • claims- 专利权利要求的文本。
  • description- 专利完整描述的文本。

Sample_submission.csv格式正确的示例提交文件。

  • publication_number
  • query- 目标列。

test.csv是nearest_neighbors.csv的子集,将涵盖隐藏数据集中的2,500项专利。

  • publication_number- 此栏仅包含 1975 年或之后发布的专利。
  • target_[N]- 这些列指定您的查询应产生哪些专利。

train_index_patent_ids.json Whoosh 索引中包含的专利列表。

赛题时间轴

  • 2024 年 4 月 24 日- 开始日期。
  • 2024 年 7 月 17 日- 报名截止日期。
  • 2024 年 7 月 17 日- 团队合并日期。
  • 2024 年 7 月 24 日- 最终提交截止。