IT分野の調査会社であるGartnerによると、AIデータは現在、急速に「Garbage In, Garbage Out(GIGO:ゴミを入力すればゴミが出てくる)」という古典的な問題に直面している。企業が運用するAIシステムや大規模言語モデル(LLM)が、信頼性の低い、未検証のAI生成コンテンツで埋め尽くされているからだ。 この現象は一般に「AIスロップ」として知られているが、AIにとっては単なる迷惑以上の、致命的な脅威となる。偽のデータがLLMを汚染し、AI業界で「モデル崩壊(Model Collapse)」と呼ばれる事態を引き起こすためだ。AI企業のAquantは、この傾向を「AIが自身の出力を学習に利用することで、結果が現実から乖離(かいり)していく現象」と定義している。しかし、この定義はあまりに寛容すぎると言わざるを得ない。不適切なデータを用いれば、AIの結果が現実から乖離する可