最新发布第65页

梗百科 - 网络流行语itotii

LMArena

9个月前（09-12）

LMArena是加州大学伯克利分校推出的创新AI模型评估平台，基于让用户对不同AI模型的回答进行匿名投票，衡量模型的表现。用户输入问题后，平台提供两个模型的回答，用户根据偏好选择更优答案，投票结果直接塑造公共排行榜。LMArena已帮助测试众多实验室...

9个月前（09-12）

HELM全称Holistic Evaluation of Language Models（语言模型整体评估）是斯坦福大学推出的大模型评测体系，评测方法主要包括场景、适配、指标三大模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多...

9个月前（09-12）

OpenCompass面向大模型的开源方和使用者，提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单，评测集社区，文档等专区。榜单专区包含大语言模型以及多模态大模型榜单，提供多能力维度的评分参考。评测集社区致力于打造创新性的基准测试资...

9个月前（09-12）

MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约300...

9个月前（09-12）

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务，H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行...

9个月前（09-12）

PubMedQA是专门用在生物医学研究问题回答的数据集。PubMedQA通过文献摘要回答“是/否/可能”形式的研究问题，例如“某种药物是否有效”。数据集包含1000个专家标注的问答实例、61200个未标注实例和211300个人工生成的问答对。PubM...

9个月前（09-12）

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项...

9个月前（09-12）

SuperCLUE是中文通用大模型综合性评测基准，前身为中文语言理解测评基准（CLUE），旨在评估中文通用大模型的综合效果、与国际模型的对比及人类基准差距。其评测体系涵盖基础能力、专业能力、中文特性能力三大维度，后发展为语言理解与生成、知识理解与应用...

9个月前（09-12）

大模型SQL能力排行榜揭示大模型在SQL领域的真实水平！ SCALE致力于通过科学、严谨的测评，全面评估大语言模型（LLM）处理SQL的核心能力。我们聚焦三大关键维度：SQL优化能力（提升查询效率与性能）、方言转换能力（实现跨数据库平台的无缝迁移）以...

9个月前（09-12）

北京奥维云网大数据科技股份有限公司是一家专注于智慧家庭领域的大数据综合解决方案服务商，为行业内企业提供数据研究和大数据服务。2014年8月，奥维云网（NEEQ：831101）在新三板挂牌上市，经历十多年的发展目前已成为国内智慧家庭领域先进的第三方大数...