Valuta le prestazioni del modello utilizzando un altro LLM come giudice - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valuta le prestazioni del modello utilizzando un altro LLM come giudice

Con un processo di valutazione del modello che utilizza un modello di arbitro, Amazon Bedrock utilizza un LLM per assegnare un punteggio alle risposte di un altro modello e fornire una spiegazione di come ha assegnato un punteggio a ciascuna coppia di prompt e response. I punteggi e le spiegazioni sono disponibili nella console Amazon Bedrock tramite la pagina Valutazioni.

Questo tipo di valutazione del modello richiede due modelli diversi, un modello di generatore e un modello di valutazione. Si definiscono le istruzioni per il modello del generatore in un set di dati e il modello di valutazione assegna un punteggio alle risposte a tali richieste in base alle metriche selezionate.

La scheda riassuntiva delle metriche nella console mostra un istogramma che mostra il numero di volte in cui una risposta ha ricevuto un determinato punteggio e le spiegazioni del punteggio per i primi cinque prompt trovati nel set di dati. Il report completo del processo di valutazione è disponibile nel bucket Amazon S3 specificato al momento della creazione del processo di valutazione del modello.

Quando crei il processo di valutazione del modello, puoi selezionare un modello Amazon Bedrock come modello generatore oppure valutare un modello non Amazon Bedrock fornendo i tuoi dati di risposta all'inferenza nel set di dati del prompt. Se fornisci i tuoi dati di risposta, Amazon Bedrock salta la fase di invocazione del modello e valuta direttamente i dati forniti.

Per valutare le risposte dei modelli di generatori, Amazon Bedrock fornisce una serie di parametri integrati tra cui puoi scegliere. Ogni metrica utilizza un prompt diverso per il modello di valutazione. Puoi anche definire metriche personalizzate per il tuo caso aziendale specifico. Per ulteriori informazioni, consulta Usa le metriche per comprendere le prestazioni del modello.

Modelli supportati

Modelli di valutazione supportati (metriche integrate)

Per creare un lavoro di valutazione che utilizzi un LLM come giudice con le metriche integrate di Amazon Bedrock, devi accedere ad almeno uno dei modelli di arbitro nell'elenco seguente. Per ulteriori informazioni su come accedere ai modelli e alla disponibilità regionale, consulta. Accedi ai modelli di base Amazon Bedrock

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

I profili di inferenza Cross Region sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza interregionali supportati.

Modelli di valutazione supportati (metriche personalizzate)

Per creare un lavoro di valutazione che utilizzi un LLM come giudice con metriche personalizzate, devi accedere ad almeno uno dei modelli di arbitro nell'elenco seguente.

  • Mistral Large24.02 — mistral.mistral-large-2402-v1:0

  • Mistral Large24.07 — mistral.mistral-large-2407-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0

  • AnthropicClaude 3 Haiku3,5 — anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

I profili di inferenza Cross Region sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza interregionali supportati.

Modelli di generatori supportati

Puoi utilizzare i seguenti tipi di modello in Amazon Bedrock come modello di generatore in un processo di valutazione. Puoi anche importare i tuoi dati di risposta all'inferenza da modelli non Amazon Bedrock.