OpenAIから機械学習エージェントの評価のためのベンチマークであるMLE-Benchが公開されました。 このベンチマークは、機械学習エージェントの性能を評価するためのツールとして、研究者や開発者にとって有用なものであると思います。 一方で「16.9%のコンペティションでKaggleのブロンズメダルに相当する成績を達成できる」という結果の伝え方は、 すでに多くの Kaggler が指摘しているように過大評価の誤解を生みます。 いま何ができて、何ができないのか。これを正確に評価して伝えることは、後発の研究者の成果を正しく称賛するためにも大切です。 この記事ではまずMLE-Benchの論文を紹介し、過大評価の誤解を生みやすい点について説明します。 MLE-Benchの論文ざっくり紹介 MLE-Benchは機械学習エージェントの能力を評価するためのベンチマークです。 これは Kaggle から
