
PromptBench
PromptBench簡介
PromptBench,這是一個用于評估 LLM 的統一庫。它由研究人員易于使用和擴展的幾個關鍵組件組成:提示構建、提示工程、數據集和模型加載、對抗性提示攻擊、動態評估協議和分析工具。PromptBench 被設計為一個開放、通用和靈活的代碼庫,用于研究目的,可以促進在創建新基準、部署下游應用程序和設計新評估協議方面進行原創研究。。
PromptBench項目地址:https://github.com/microsoft/promptbench
promptbench 目前提供什么?
快速模型性能評估:我們提供用戶友好的界面,允許快速構建模型、加載數據集和評估模型性能。
提示工程:我們實施了幾種快速工程方法。例如:Few-shot Chain-of-Thought [1]、Emotion Prompt [2]、Expert Prompting [3] 等。
評估對抗性提示:promptbench 集成了提示攻擊 [4],使研究人員能夠模擬模型上的黑盒對抗性提示攻擊并評估其魯棒性(詳見此處)。
動態評估以減輕潛在的測試數據污染:我們集成了動態評估框架 DyVal [5],該框架以可控的復雜性即時生成評估樣本。
PromptBench安裝方式pip
我們為想要快速開始評估的用戶提供了一個 Python 包提示臺。只需運行:
pip install promptbench
請注意,pip 安裝可能落后于最近的更新。因此,如果您想使用最新功能或基于我們的代碼進行開發,您應該通過 GitHub 安裝。
通過 GitHub 安裝
首先,克隆存儲庫:
git clone git@github.com:microsoft/promptbench.git
然后
cd promptbench
若要安裝所需的包,可以創建 conda 環境:
conda create --name promptbench python=3.9
然后使用 pip 安裝所需的軟件包:
pip install -r requirements.txt
請注意,這只安裝了基本的 python 包。對于提示攻擊,您還需要安裝 TextAttack。
PromptBench用法:
Promptbench 易于使用和擴展。通過以下示例將幫助您熟悉 promptbench 以便快速使用、評估現有數據集和 LLM,或創建自己的數據集和模型。