🚀 CulturalBench: AI文化知识测评新基准 🔥

Human-AI协作数据收集流程

我们提出了CulturalBench——首个通过人机协作构建的跨文化知识测评基准,包含1,696个人工编写并验证的问题,覆盖45个全球地区(包括孟加拉国、津巴布韦、秘鲁等代表性不足地区)和17个文化主题。

1,696

人工编写验证的问题

45

覆盖全球地区

17

文化主题分类

92.4%

人类基准准确率

🌟 核心发现

模型在CulturalBench-Hard上的表现

🔧 创新方法

采用CulturalTeaming人机协作框架:

  1. 人类基于文化观察构思场景
  2. AI辅助转化为结构化问题
  3. 五人独立验证确保质量
  4. 多数投票过滤(≥4/5)

🏆 为什么重要?

CulturalBench是首个同时满足:

📄 立即阅读完整论文 🧪 体验在线Demo

作者团队:华盛顿大学、英属哥伦比亚大学、Vector研究所、麦吉尔大学、斯坦福大学等

通讯作者:kellycyy@uw.edu