8月
21
生成AIベンチマーク最前線、高度な推論能力とドメイン特化性能に迫る - W&Bミートアップ #24
Sakana AIから革新的なベンチマークについてお聞きします!
主催 : Weights & Biases Japan
広告
イベントの説明
イベント概要
生成AI技術の急速な進歩に伴い、従来のベンチマークでは測定が困難な、より高度で実用的な生成AI能力の評価が求められています。本ミートアップでは、最前線で活躍する研究者・開発者をお招きし、次世代の生成AIベンチマーク開発について深く掘り下げます。 Sakana AIから2名の専門家が登壇し、それぞれ異なる領域での革新的なベンチマークを紹介します。今宿祐希氏からは、AtCoder株式会社との共同開発による「ALE-Bench」について、AIの長期的推論能力を測るコーディングベンチマークの詳細と知見を共有いただきます。石田隆氏からは、日本の上場企業の有価証券報告書を活用した「EDINET-Bench」について、金融ドメインに特化したベンチマークの構築手法と評価結果を発表いただきます。
また、8月末にアップデート予定のNejumi LLMリーダーボード4について、W&B Japanより概要をご紹介いたします。
スポンサーからのお願い
- 講演開催中にお弁当形式の軽食と、懇親会でのお飲み物の提供を予定しておりますが、数には限りがありご参加者全員に行き渡らない場合もございます。
タイムテーブル
| 時間 | 内容 | スピーカー |
|---|---|---|
| 18:00 ~ 18:30 | 受付 | |
| 18:30 ~ 18:40 | オープニング:今回のミートアップの主旨 | シバタ アキラ (W&B) |
| 18:40 ~ 18:50 | Sakana AIのベンチマークについて(仮) | 秋葉 拓哉 (Sakana AI) |
| 18:50 ~ 19:15 | ALE-Bench:AIの長期的推論能力を測るコーディングベンチマーク | 今宿 祐希 (Sakana AI) |
| 19:15 ~ 19:25 | 休憩 | |
| 19:25 ~ 19:50 | EDINET-Bench:有価証券報告書を用いた日本語金融ベンチマーク | 石田 隆 (Sakana AI) |
| 19:50 ~ 20:05 | Nejumi LLMリーダーボード4の公開について | 山本 祐也 (W&B) |
| 20:05 ~ | 懇親会 | ご参加は任意で |
スピーカー
今宿 祐希 氏 / Sakana AI Research Engineer
2024年5月からインターンとしてSakana AIに在籍。修士号を取得後、新卒としてSakana AIに入社。2022年度未踏IT人材発掘・育成事業でスーパークリエータに認定。
講演タイトル:ALE-Bench:AIの長期的推論能力を測るコーディングベンチマーク
AI技術が日進月歩で進化する中、従来のベンチマークだけでは変化を見ることが難しくなり、より高度で実用的な課題が求められるようになっている。本ワークショップでは、Sakana AIがAtCoder株式会社と共同で公開した新たなコーディングベンチマーク「ALE-Bench」を紹介する。AIの長期的な推論能力に着目し、より実社会の課題に近いタスクを扱う本ベンチマークから得られた知見をもとに、今後のAIに求められる能力を紐解いていく。
石田 隆 氏 / Sakana AI Research Scientist
三井住友DSアセットマネジメント等を経て、現在はSakana AIのほか、理化学研究所革新知能統合研究センター研究員、東京大学大学院新領域創成科学研究科准教授。同研究科博士課程修了・博士(科学)。公益社団法人日本証券アナリスト協会認定アナリスト。
講演タイトル:EDINET-Bench:有価証券報告書を用いた日本語金融ベンチマーク
本ワークショップでは、日本の上場企業の有価証券報告書から構築した金融ベンチマーク「EDINET‑Bench」を紹介します。会計不正検知・業績予測・業種分類の3タスクを用いた評価では、最先端LLMでも伸びしろが大きく、ドメインに特化した試みの重要性が浮かび上がりました。データセット構築ツールを公開することで、研究者・開発者の皆様が気軽に日本語金融データで試行錯誤でき、金融AIをより身近に感じてもらう一助となれば幸いです。
山本 祐也 - Weights & Biases Japan, AI Solution Engineer / Xアカウント
東京大学大学院工学系研究科にて有機無機複合材料の研究で博士号を取得。学位取得後、大手化学メーカーにて液晶・タッチパネル関連先端化学材料の研究開発に従事。 その後、大手食品メーカーで機械学習を用いた食品パッケージに関する予測モデリングと最適化に取り組むなど、BtBとBtCいずれにも深い経験を有する。前職DataRobotでは製造顧客担当チームのリーダーとして国内数十社のAI導入を支援。国内で数十人程度のKaggle Grandmasterの一人。
会場
WeWork 東京スクエアガーデン
住所: 104-0031 東京都中央区京橋3-1-1 東京スクエアガーデン 14F
(以前のイベントの様子)
アクセス
- 東京メトロ 銀座線 京橋駅(出口3)(駅直結)
- 東京メトロ 有楽町線 銀座一丁目駅(出口7) 徒歩2分
- 都営浅草線 宝町駅(A4出口) 徒歩2分
京橋駅直結のビル。3階にあがるとオフィスエントランスがございます。 3階からエレベーターで14階までお越しください。 会場へのアクセス方法の詳細はこちらに:http://wandb.me/tokyo-office
主催・運営
このイベントはWeights & Biases Japan によって運営されています。
本イベントの開催には、WeWork様に多大なご協力をいただいております。
このミートアップに登録することで、Weights & Biasesの製品、サービス、イベントに関するマーケティングコミュニケーションを受け取ることがあります。W&Bは、お客様の個人情報をプライバシーポリシーに従ってのみ使用し、これらのコミュニケーションはいつでも解除することができます。
このミートアップ中に写真や動画が撮影されます。これらはW&Bによってマーケティングや宣伝用に、出版物、ウェブサイト、ソーシャルメディアで使用されることがあります。何か懸念がある場合や、撮影や録画されたくない場合は、お問い合わせください。
広告




エンジニアをつなぐ
connpass は株式会社ビープラウドが開発・運営しています