小羊驼Vicuna团队新作：Chatbot Arena——实际场景用Elo rating对 LLM 进行基准测试

大模型2年前 (2023)发布智源社区

1,264 0 0

Chatbot Arena，一种针对大型语言模型 (LLM) 的基准平台，采用匿名、随机的方式进行对抗评测，评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。

发布了9个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统，在多个语言下提供交互式界面，数据来源于用户投票。

总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统。

关于LMSYS Org

大型模型系统组织（LMSYS Org）是一个开放的研究组织，由加州大学伯克利分校的学生和教师与UCSD和CMU合作创立。目标是通过共同开发开放数据集、模型、系统和评估工具，让每个人都能访问大型模型。工作包括机器学习和系统方面的研究，训练大型语言模型并使其广泛可用，同时还开发分布式系统来加速其培训和推理。

小羊驼Vicuna团队新作：Chatbot Arena——实际场景用Elo rating对 LLM 进行基准测试

他们代表作是Vicuna，斯坦福开源机器人小羊驼Vicuna，130亿参数匹敌90%ChatGPT

学生团队
Lianmin Zheng, Ying Sheng, Wei-Lin Chiang, Dacheng Li, Zhuohan Li, Zi Lin, Zhanghao Wu, Siyuan Zhuang, Yonghao Zhuang

教师团队
Hao Zhang，Ion Stoica，Joseph E。冈萨雷斯，埃里克·P兴

体系
加州大学伯克利分校、加州大学圣地亚哥分校、CMU、MBZUAI