模型大乱斗,小羊驼团队推出大模型竞技平台Chatbot Arena
发布日期:2023-06-26 点击次数:108
品玩6月8日讯,由伯克利大学主导一个团队 LMSYS Org 近日发布了一个针对大语言模型的基准平台 Chatbot Arena。
据悉,该平台采用匿名、随机的方式进行对抗评测,评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。排名通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下判定哪款大模型产品的表现更好一些。 Elo rating system会根据用户的选择最后判定大模型产品的积分,并以排行榜的形式出现在首页中。
目前OpenAI 的ChatGPT-4排名第一,之后是 Anthropic 的claude,同样来自 Anthropic 的 claude Instant 排名第三。

LMSYS Org 是一个松散的研究组织,由加州大学伯克利分享额学生团队组建,曾推出过大语言模型小羊驼。
","gnid":"98b7711be2bb84b41","img_data":[{"flag":2,"img":[{"desc":"","height":"396","title":"","url":"http://p2.img.360kuai.com/t01cdaea210580cbae5.jpg","width":"750"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1686208380000,"pure":"","rawurl":"http://zm.news.so.com/0400d7d2567e3b16932001cb838d666e","redirect":0,"rptid":"fa54c8342a5a8cc6","rss_ext":[],"s":"t","src":"品玩","tag":[{"clk":"ktechnology_1:伯克利大学","k":"伯克利大学","u":""},{"clk":"ktechnology_1:加州大学","k":"加州大学","u":""},{"clk":"ktechnology_1:伯克利","k":"伯克利","u":""}],"title":"模型大乱斗,小羊驼团队推出大模型竞技平台Chatbot Arena","type":"zmt","wapurl":"http://zm.news.so.com/0400d7d2567e3b16932001cb838d666e","ytag":"科技:人工智能:AI技术","zmt":{"brand":{},"cert":"优质科技领域创作者","desc":"有品好玩的科技,一切与你有关。","fans_num":9264,"id":"2991151609","is_brand":"0","name":"品玩","new_verify":"7","pic":"http://p5.img.360kuai.com/t019112a1b3e04850a2.jpg","real":1,"textimg":"http://p9.img.360kuai.com/bl/0_3/t017c4d51e87f46986f.png","verify":"0"},"zmt_status":0}","errmsg":"","errno":0}