別の LLM を審査員として使用してモデルのパフォーマンスを評価する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

別の LLM を審査員として使用してモデルのパフォーマンスを評価する

判事モデルを使用するモデル評価ジョブでは、Amazon Bedrock は LLM を使用して別のモデルのレスポンスをスコアリングし、各プロンプトとレスポンスのペアをどのようにスコアリングしたかを説明します。スコアと説明は、評価ページから Amazon Bedrock コンソールで確認できます。

このようなモデル評価には、ジェネレーターモデル評価者モデルの 2 つの異なるモデルが必要です。データセットでジェネレーターモデルのプロンプトを定義すると、評価者モデルは選択したメトリクスに基づいてそれらのプロンプトに対するレスポンスをスコアリングします。

コンソールのメトリクス概要カードには、レスポンスが特定のスコアを受け取った回数を示すヒストグラムと、データセット内で見つかった最初の 5 つのプロンプトのスコアの説明が表示されます。完全な評価ジョブレポートは、モデル評価ジョブの作成時に指定した Amazon S3 バケットで使用できます。

モデル評価ジョブを作成するときは、ジェネレーターモデルとして Amazon Bedrock モデルを選択するか、プロンプトデータセットに独自の推論レスポンスデータを指定して Amazon Bedrock 以外のモデルを評価できます。独自のレスポンスデータを指定すると、Amazon Bedrock はモデル呼び出しステップをスキップし、指定したデータを直接評価します。

ジェネレーターモデルのレスポンスを評価するために、Amazon Bedrock には、選択できる一連の組み込みメトリクスが用意されています。各メトリクスは、評価者モデルに異なるプロンプトを使用します。特定のビジネスケースに独自のカスタムメトリクスを定義することもできます。詳細については、「メトリクスを使用してモデルのパフォーマンスを理解する」を参照してください。

サポートされているモデル

サポートされている評価者モデル (組み込みメトリクス)

Amazon Bedrock の組み込みメトリクスで LLM を審査員として使用する評価ジョブを作成するには、次のリストの少なくとも 1 つの審査員モデルにアクセスする必要があります。モデルとリージョンの可用性へのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

クロスリージョン推論プロファイルは、リストされているモデルでサポートされています。詳細についてはサポートされているクロスリージョン推論プロファイルを参照してください。

サポートされている評価者モデル (カスタムメトリクス)

カスタムメトリクスを持つ審査員として LLM を使用する評価ジョブを作成するには、次のリストの少なくとも 1 つの審査員モデルにアクセスする必要があります。

  • Mistral Large 24.02 – mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 – mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

クロスリージョン推論プロファイルは、リストされているモデルでサポートされています。詳細についてはサポートされているクロスリージョン推論プロファイルを参照してください。

サポートされているジェネレーターモデル

Amazon Bedrock では、次のモデルタイプを評価ジョブのジェネレータモデルとして使用できます。Amazon Bedrock 以外のモデルから独自の推論レスポンスデータを取り込むこともできます。