PromptBench

一个基于 Pytorch 的 Python 包,用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API,以便对 LLM 进行评估。
PromptBench

PromptBench,这是一个用于评估 LLM 的统一库。它由研究人员易于使用和扩展的几个关键组件组成:提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。PromptBench 被设计为一个开放、通用和灵活的代码库,用于研究目的,可以促进在创建新基准、部署下游应用程序和设计新评估协议方面进行原创研究。

PromptBench项目地址:https://github.com/microsoft/promptbench

PromptBench

promptbench 目前提供什么?

快速模型性能评估:我们提供用户友好的界面,允许快速构建模型、加载数据集和评估模型性能。

提示工程:我们实施了几种快速工程方法。例如:Few-shot Chain-of-Thought [1]、Emotion Prompt [2]、Expert Prompting [3] 等。

评估对抗性提示:promptbench 集成了提示攻击 [4],使研究人员能够模拟模型上的黑盒对抗性提示攻击并评估其鲁棒性(详见此处)。

动态评估以减轻潜在的测试数据污染:我们集成了动态评估框架 DyVal [5],该框架以可控的复杂性即时生成评估样本。

PromptBench安装方式pip

我们为想要快速开始评估的用户提供了一个 Python 包提示台。只需运行:

pip install promptbench

请注意,pip 安装可能落后于最近的更新。因此,如果您想使用最新功能或基于我们的代码进行开发,您应该通过 GitHub 安装。

通过 GitHub 安装

首先,克隆存储库:

git clone git@github.com:microsoft/promptbench.git

然后

cd promptbench

若要安装所需的包,可以创建 conda 环境:

conda create --name promptbench python=3.9

然后使用 pip 安装所需的软件包:

pip install -r requirements.txt

请注意,这只安装了基本的 python 包。对于提示攻击,您还需要安装 TextAttack。

PromptBench用法:

Promptbench 易于使用和扩展。通过以下示例将帮助您熟悉 promptbench 以便快速使用、评估现有数据集和 LLM,或创建自己的数据集和模型。

数据评估

PromptBench浏览人数已经达到238,如你需要查询该站的相关权重信息,可以点击"爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:PromptBench的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找PromptBench的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于PromptBench特别声明

AI工具箱提供的PromptBench都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI工具箱实际控制,在2024年10月6日 上午3:25收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具箱不承担任何责任。

AI工具箱致力于优质、实用的网络站点资源收集与分享!本文地址https://aitoolbox.cn/sites/26770.html转载请注明

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...