Fully Connected Tokyo 2024に登壇したSakana AIのCTO、Llion Jonesの語る未来 – 抽象的には「システム1とシステム2の融合」と捉えられるエージェント型AIシステムの開発方法論は現在進行形で大きく発展していて、今後、個別具体の課題に対応するためには基盤モデルやファインチューニイングなどのモデル開発以上に付加価値を生み出しやすい領域になっていくと考えられます。

計算リソースが限られている環境においては特化型モデルの開発こそが「勝ち筋」と考えられます。汎用モデルの開発に必要なゼロからの事前学習や、ベースモデルの継続事前学習とは異なり、少量でもより高いクオリティーのデータを必要とするファインチューニングの獲得が企業においてはますます求められるようになるでしょう。

「生成AIが出てきて私たちの仕事やキャリアはどうなるの?」なんていうご相談もちょくちょくいただきます。ChatGPTのショックが大きすぎて、未来に対して過度に悲観的な反応も多く聞かれる今日この頃ですが、現在の変化を歴史の中に位置づけ、過去から学ぶこととで見えてくる未来があるのではないでしょうか?

なぜこのようなことが起こっているのか?この論文の著者が人間の評価したモデルとのやり取りを確認したところ、多くの場合チューニングモデルは整った形式で答えを返しているものの、内容は不正確だったといいます。つまり評価している人間が騙されてしまうほどもっともらしく返せたとしても、知識が増えているとはいえず、実際に性能の良いモデルを作るにはよりよい基盤モデルを使う他に近道はない、と結論づけています。

音楽が映像に何故あっているのかを言葉で説明できる人は少ないと思いますし、「しっくりくる」音楽を探してこい、と言われたとしても、音楽に関する知識と選曲の経験がなければ難しいと感じるでしょう。また、正解は一つではなく、あえて少しずれてるのがいい効果につながる、ということもあったりする複雑な問題です。このような問題をAIで部分的にでも解決するために、私達は様々な実験を繰り返し、幅広い動画に対して腹落ち感のある音楽の候補を提示するAIの開発に成功しました。

音楽制作・パフォーマンスを行うクリエーターが使う音楽制作プラットフォームでリアルタイムにPyTorchのAIモデルを呼び出すためのプラグイン型アプリケーションのNeutoneを今年の頭から開発し、音楽という分野においてMLOpsを実現し、世界的にも評価を得ることができました。

社会に大きな影響を持ちうるこれらの技術が、アートやデザインはもちろん、ビジネスにおいてどのような変化を引き起こしていくのか。先日開催した特別セミナーでは、Qosmoの徳井さん(@naotokui)と私(@madyagi)に加え、深津貴之氏(@fladdict)と水野祐弁護士(@TasukuMizuno)にもご参加いただき、様々な確度から検証してきました。本稿では特にビジネスにおける技術活用と、法的・倫理的注意点にフォーカスした2日目のセミナーサマリーをお届けします。