HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。
数据统计
数据评估
关于HELM特别声明
本站ie111提供的HELM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ie111实际控制,在2024年2月17日 17:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ie111不承担任何责任。
相关导航
暂无评论...