Artificial Analysis基于数据进行了大量分析和可视化,还给出了质量、价格、性能、速度、上下文窗口等关键指标的详细排名,帮你选择最合适的大模型和API供应商。
整个网站收录了国外主流前沿大模型,国内的依旧只有DeepSeek-V2-Chat大模型入选。网站底部有这些大模型清单,点击即可以跳转到每个大模型的专属介绍页面。
下面,我们来看看具体各指标的对比细节吧!
单项能力排名质量
如下图所示,GPT-4o果然不负众望,一骑绝尘,排名第一。Gemini 1.5 Flash排名第六。但整体来说,表现都不错,没有拉开太大差距。
速度
在速度这一part,Google的Gemini 1.5 Flash、Llama 3(8B)以及Claude 3 Haiku遥遥领先,GPT-4o排名第五。不同大模型的速度差异可谓有天壤之别,最快的每秒可处理的tokens数量为127VS 最慢的每秒可处理tokens数量仅为25。
价格
"USD per 1M Tokens" 是一个衡量成本效益的指标,指的是处理一百万个tokens(文本单位)所需的美元金额。这个指标通常用于评估使用人工智能模型或服务时的经济成本。
"Lower is better" 意味着在这项指标上,数值越低越好。这表示处理相同数量的文本数据所需的成本更低,从经济角度来看更有优势。换句话说,如果一个模型或服务在"USD per 1M Tokens"上的成本较低,那么它在经济上更高效,对于需要处理大量文本数据的企业或个人来说,可能更具吸引力。
成本较低的大模型包含:Llama 3(8B)、Mixtral 8x7B、Claude 3 Haiku、GPT-3.5 Turbo、Gemini 1.5 Flash等。
不同模型在不同领域的表现
下面列出了一系列按照能力分类的不同指标(metrics),数值越高代表性能越好("Higher is better")。这些指标是针对不同LLM在特定领域(如聊天机器人领域)的表现进行评估的结果。
在以下所有任务中,GPT-4o均一骑绝尘,寂寞地立于山峰之巅。
通用能力(聊天机器人)
这是一个特定的评估领域,可能是指评估AI模型在聊天机器人应用中的性能,如理解能力、对话流畅度、信息检索等。
大规模多任务语言理解
MMLU代表的是"Massive Multitask Language Understanding",即"大规模多任务语言理解"。这是一个基准测试,旨在衡量AI模型在处理和理解自然语言时的高级能力。
MMLU基准测试通常包括一系列任务,这些任务要求AI模型展示其对语言的理解、推理、常识以及知识应用的能力。这些任务可能包括但不限于:
1、问答(Question Answering):模型需要阅读一段文本并回答有关该文本的问题。
2、摘要(Summarization):模型需要生成给定文本的简短摘要。
3、语义相似性(Semantic Similarity):模型需要评估两个句子或短语在语义上的相似度。
4、常识推理(Commonsense Reasoning):模型需要使用常识来解决没有明确答案的问题。
MMLU基准测试的结果通常以百分比形式呈现,用来比较不同AI模型在语言理解任务上的表现。
编程能力
Coding用来评估人工智能模型编程能力。其中,HumanEval 的特点包括:
1)人类评估:测试的名称暗示评估是由人类进行的,意味着测试结果可能依赖于人类对AI生成代码的质量和准确性的判断。
2)编程挑战:测试可能包含不同类型的编程问题,如算法问题、数据结构实现、代码调试等。
3)性能指标:模型的性能通常通过其生成代码的正确性、效率、可读性和风格来衡量。
4)自动化与人工结合:尽管名称中包含“人类评估”,但实际的评估过程可能结合了自动化测试(例如,运行代码并检查输出)和人工审查(例如,代码审查)。
5)比较不同模型:HumanEval 常用于比较不同AI模型在编程任务上的表现,帮助研究人员和开发者了解各个模型的优缺点。
如何选择合适的大模型?
在选择AI模型时需要考虑的几个重要因素:模型的质量、处理速度(吞吐量)以及成本(价格)。
1、质量(Quality):
质量是通过一个指数来衡量的,这个指数代表了模型在Chatbot arena(聊天机器人竞技场)、MMLU(多任务语言理解)和MT-Bench(另一个评估平台)等不同评估领域中的平均相对性能,且这个指数是经过标准化的。
2、吞吐量(Throughput):
吞吐量是指模型生成tokens的速度,以每秒tokens数来衡量。吞吐量的计算是在模型开始生成tokens之后,即在从API接收到第一组数据之后。
3、价格(Price):
价格是以每百万tokens的美元金额来表示的,是一个综合了输入tokens和输出tokens价格的混合指标(比例为3:1)。这意味着在计算价格时,输入tokens的价格是输出tokens价格的三倍。
4、提供商的中位数(Median across providers):
这里提到的数字代表所有支持该模型的提供商的中位数(P50),即所有提供商给出的数据中位于中间的值。中位数是一个统计学上用来表示数据集中趋势的值,它比平均数更能抵抗极端值的影响。
质量 VS 吞吐量
在选择人工智能模型时,我们通常需要考虑几个关键因素之间的权衡,特别是模型推理质量与吞吐量之间的权衡。通常来说,高质量(即推理能力强)的模型在处理速度(吞吐量)上可能不如那些专为速度优化的模型。换句话说,一个在推理和知识方面表现出色的模型可能在处理数据的速度上不如其他模型快。
质量 VS 价格
当然,从成本的角度考虑,我们需要选择性价比相对较高的大模型。
相对来说,Llama 3(70B)、Gemini 1.5 Flash、Mixtral 8x22B等都是性价比较高的选择。如果你不差钱,又希望得到质量更高的结果,则可以考虑使用GPT-4o、Gemini 1.5 Pro等高端模型。
Reference
暂无评论内容