🚀 CulturalBench: AI文化知识测评新基准 🔥

我们提出了CulturalBench——首个通过人机协作构建的跨文化知识测评基准，包含1,696个人工编写并验证的问题，覆盖45个全球地区（包括孟加拉国、津巴布韦、秘鲁等代表性不足地区）和17个文化主题。

1,696

人工编写验证的问题

覆盖全球地区

文化主题分类

92.4%

人类基准准确率

🌟 核心发现

采用CulturalTeaming人机协作框架：

CulturalBench是首个同时满足：

作者团队：华盛顿大学、英属哥伦比亚大学、Vector研究所、麦吉尔大学、斯坦福大学等

通讯作者：kellycyy@uw.edu