大型语言模型在函数调用能力评估中的重要性

发布：更新时间：2024-09-24 10:08:26

自 2022 年底以来，大型语言模型（LLMs）凭借其在执行通用任务方面的强大能力，成为人们关注的焦点。这些模型不仅适用于聊天应用，还可以应用于开发各类 AI 应用和软件（如 Langchain, Llama Index, AutoGPT, Voyager），已然成为一种趋势。GPT、Gemini、Llama、Mistral等模型通过与外部世界的交互，如函数调用和执行，展现了其巨大潜力。

伯克利函数调用排行榜（Berkeley Function-Calling Leaderboard，简称 BFCL）[1]是一个用于评估大型语言模型（LLM）在准确调用函数或工具方面的能力的在线平台。BFCL是一个全面评估大型语言模型（LLM）调用函数和工具能力的平台，包括多种编程语言和应用场景。该平台通过提供问题-函数-答案对，评估模型在不同场景下的表现，如简单函数调用、并行函数调用、多函数调用等。此外，BFCL还关注模型的成本和延迟，并在2024年8月19日发布了BFCL V2数据集，解决了偏见和数据污染问题，专注于动态真实世界场景。这个排行榜的特点包括：

全面评估 LLM

：它评估大型语言模型的函数调用能力，涵盖了各种编程语言和应用场景。
真实世界数据

：使用实际数据集进行评估，确保评估的准确性和相关性。
定期更新

：排行榜会根据 AI 技术的最新进展进行更新。
详细的错误分析

：提供对不同模型的优缺点的深入分析。
模型比较

：方便用户在模型之间进行比较，以便做出明智的决策。
成本和延迟估计

：为模型的经济效率和性能提供估计。

排行榜中包括了2,000个问题-函数-答案对，涉及多种编程语言（如 Python、Java、JavaScript、REST API）和复杂的使用场景。这些场景包括需要从多个提供的函数中选择一个或多个函数的多个函数调用，以及需要同时进行多个函数调用的并行函数调用。

伯克利函数调用排行榜对于研究人员、开发者和教育机构来说是一个宝贵的资源，可以帮助他们比较和选择最适合其需求的模型，评估模型的经济效率和性能。伯克利函数调用排行榜是 AI 社区的关键工具，它提供了一种透明且数据驱动的评估方法，用于评估和选择最有效的用于编程任务的大型语言模型。通过提供全面的评估、真实世界的见解和实用的比较，它使用户能够做出明智的决策，从而提高其 AI 应用程序的效率和有效性。

2024年9月19日发布的伯克利函数调用排行榜（BFCL V3）[2]是一个评估大型语言模型（LLM）在多轮和多步函数调用（工具使用）方面能力的重要平台。它允许LLM进行往返交互，通过询问澄清性问题来处理复杂任务，特别是引入了多轮次、多步骤函数调用（工具使用）的基准测试。BFCL V3在评估大型语言模型（LLMs）如何通过调用正确功能与各种场景互动方面取得了关键进展。它允许模型与用户进行来回互动，通过询问澄清问题来导航复杂任务。此外，BFCL V3首次执行API状态验证作为真实情况验证，而不仅仅是通过抽象语法树（AST）和可能的答案列表进行参数匹配。BFCL V3的主要特点包括：