【増枠】SUMO.ai #01 - マルチモーダルAI技術勉強会

7月

25

【増枠】SUMO.ai #01 - マルチモーダルAI技術勉強会

研究と実践が交差する、自然言語・音声・画像・機械学習の横断的AI技術の交流会です

ハッシュタグ：#sumo_ai

募集内容	現地参加枠無料先着順 84/85人公募LT枠 (7/18金〆切) 無料先着順（抽選終了） 4/2人
申込者	申込者一覧を見る
開催日時	2025/07/25(金) 19:00 ～ 21:50 Googleカレンダー icsファイル
募集期間	2025/07/09(水) 00:00 〜 2025/07/25(金) 19:00まで
会場	LINE WORKS株式会社東京都渋谷区桜丘町1-1（渋谷サクラステージ SHIBUYAタワー23F）マップで見る会場のサイトを見る
参加者への情報	(参加者と発表者のみに公開されます)
出席登録	(イベント開始時間の2時間前から終了時間まで、参加者のみに公開されます)

イベントの説明

SUMO.aiについて

「SUMO.ai」（Society for Uniting Multimodal and Open Artificial Intelligence）」は、多彩な専門領域の研究者やエンジニアが集い、AI技術の可能性を幅広く探求する場です。

本イベントでは、自然言語・音声・画像・機械学習など、複数の情報源を統合するマルチモーダルAIに注目し、学術研究からビジネス応用まで多角的に議論を行います。最先端の事例紹介やオープンな知見共有を通じて、参加者同士が高度な知識を深め合うことを目指します。

また本コミュニティは、AI技術のさらなる発展と社会実装への貢献を念頭に、国内外より幅広いバックグラウンドの方々の参加を歓迎いたします。コミュニティを通じて、新たな研究テーマの発掘や事業連携の機会創出、所属組織や専門領域を跨いだネットワーキングにも力を入れたいと考えています。

登壇いただける有識者や、多方面からの参加者も大募集中です。ぜひご専門の分野や経験を活かし、最先端の知見を共に築いていきましょう。

※本イベントはオフラインのみの開催となります。オンライン配信は予定しておりませんのでご注意ください。
※Xアカウントのフォローを是非お願いします！ @sumo_ai_jp

こんな方におすすめ

自然言語処理・音声・画像など、マルチモーダルAIに取り組む研究者の方
機械学習・深層学習・データサイエンス領域のエンジニアの方
大学・研究機関に所属するAI関連分野の教員・学生・ポスドクの方
AI技術を活用したサービス開発・事業創出に関心のある企業・スタートアップの方
その他、最先端のAI知見を学び、共有し、組織や領域を越えたネットワークを築きたい方

公募LTについて ※締め切りました

LTを最大2枠募集します。
登壇時間：10分（質疑応答含む）
発表テーマは、ご専門に基づき自由にご設定ください。
自然言語処理、音声処理、画像処理、機械学習、その他マルチモーダル関連技術に該当する研究または開発内容でお願いします。
宣伝事項はご自由に含めていただいて構いません。（イベント情報、採用告知など）
あくまで技術的な知見共有を目的とした会ですので、過度に所属組織の宣伝色が強い内容はお控えください。

応募方法

「公募LT枠」に登録の上、以下のフォームから必要事項をご入力ください。希望者多数の場合は抽選とさせていただきます。

https://forms.gle/dnjsDr8QNei1tp5d7

抽選結果について

応募期限：7月18日(金）
7月19日(土)に、結果についてご連絡いたします。

タイムテーブル

※予定/予告なく順番の入れ替えやタイトルの変更が発生する場合がございます

時間	項目	登壇者
18:30	開場	19時30分には受付撤収します
19:00-19:10	オープニング
19:10-19:40	[セッション1] Vision and LanguageからのEmbodied AIとAI for Science	牛久祥孝（NexaScience/オムロンサイニックエックス）
19:40-20:10	[セッション2] テキストからの実世界知能の実現に向けて	栗田修平 (NII)
20:10-20:15	休憩
20:15-20:25	[LT1] 就職面接におけるAI活用	勝田隼一郎（ZENKIGEN）
20:25-20:35	[LT2] マルチモーダル基盤モデルに基づく動画と音の解析技術	宗像北斗（LINEヤフー）
20:35-20:45	[スポンサーLT] LINE WORKS株式会社
20:45-20:50	クロージング、アンケートのお願い
20:50-21:50	懇親会

内容のご紹介

[セッション1] Vision and LanguageからのEmbodied AIとAI for Science

Vision and Languageはコンピュータビジョン分野と自然言語処理分野の融合分野である。深層学習、特にTransformerベースのアーキテクチャの確立によって、マルチモーダルな生成AIの主流の一つとして現在まで非常に多くの研究が進められている。更に昨今では、Vision-Language-Actionモデルを中心としたEmbodied AIがロボットなどに搭載されたり、そうしたAIによって研究開発そのものをターゲットとしたAI for Scienceの試みが広がったりと、自律社会への端緒が開けつつある。本講演では、こうしたVision and Languageの流れから最近の研究まで、講演者の研究事例を交えつつ概観する。

牛久祥孝（株式会社NexaScience 代表取締役／オムロンサイニックエックス株式会社リサーチバイスプレジデント）

2013年日本学術振興会特別研究員およびMicrosoft Research Redmond Intern。 2014年東京大学大学院情報理工学系研究科博士課程修了、NTTコミュニケーション科学基礎研究所入所。 2016年東京大学情報理工学系研究科講師。 2018年よりオムロンサイニックエックス株式会社 Principal Investigator。 2019年より株式会社Ridge-i Chief Research Officer、2022年より合同会社ナインブルズ代表、2024年よりオムロンサイニックエックス株式会社リサーチバイスプレジデント、株式会社NexaScience 代表取締役、現在に至る。主としてコンピュータビジョンや自然言語処理を対象として、機械学習によるクロスメディア理解やAIロボット駆動科学の研究に従事。 2011年ACM Mutlimedia Grand Challenge Special Prize受賞、2017年ACM Multimedia Open Source Software Competition Honorable Mention選出、2017年および2018年NVIDIA Pioneering Research Awards受賞、2021年ヤマト科学賞受賞、2023年NISTEPナイスステップな研究者選出。

@losnuevetoros

[セッション2] テキストからの実世界知能の実現に向けて

大規模言語モデル (LLM) やマルチモーダル言語モデル (MLLM) の発展により、実世界情報をテキスト的に処理する試みが進んでいる。テキスト情報は、人間がもっとも直感的に使用し、学術的な推論から日常的なコミュニケーション、さらにはユーモアやナンセンスまであらゆる分野を網羅して使用されるほぼ唯一のシンボル情報である。加えて、インターネット時代には画像と並んで膨大なテキスト情報を取得しやすい利点が存在する。一方で、実世界情報の表現としては、テキスト情報はあまりにも情報を保存できていない欠点が存在する。このようなテキストの性質を踏まえながら、本講演ではLLMやMLLM技術、LLMエージェント技術等の応用が見込まれる、3D、ロボット基盤モデル、自動運転のようなトピックに横断的に触れ、テキスト情報が果たす役割および応用について議論する。

栗田修平（国立情報学研究所 / 助教）

2019年に自然言語処理の分野で博士取得後に、実世界・物理世界を理解するための自然言語処理を目指して研究を進める。自然言語処理、機械学習、コンピュータビジョン、ロボティクスなど幅広い分野でトップ会議に採択経験あり。博士（情報学）（京都大学）、その後、理研AIP研究員、JSTさきがけ研究員、ニューヨーク大学訪問研究員などを歴任後に2024年より現職。

@shuheikuritaja

[LT1] 就職面接におけるAI活用

勝田隼一郎（株式会社ZENKIGEN）

弊社サービスである「採用面接サポートAI」ついて紹介します。AIによる面接動画の定量化を通して、面接サポートを行っています。定量化は言語情報と非言語情報どちらも用いています。またAI面接官（対話システム）も開発しており、そちらの紹介もさせていただきます。

[LT2] マルチモーダル基盤モデルに基づく動画と音の解析技術

宗像北斗（LINEヤフー株式会社） @muna_dementia

LINEヤフー株式会社で研究開発しているマルチモーダル基盤モデルを活用した動画と音の解析技術について紹介する．LINEヤフーでは動画や音を扱うサービスを提供しており，サービスの改善に向けてタギングや検索技術を研究開発している．特にさまざまなサービスへの応用を見据え，日本語版のマルチモーダル基盤モデルを開発している．本発表では，日本語版の動画-言語基盤モデルの構築と，基盤モデルのさらなる応用例として区間検索技術について紹介する．

質疑応答

Slidoで行います。質疑応答の時間は、各セッション時間に含まれます。

会場について

LINE WORKS株式会社本社オフィス

住所：東京都渋谷区桜丘町1-1 渋谷サクラステージ SHIBUYAタワー23F（地図）

※会場セキュリティの都合上、入館者の氏名・所属・メールアドレスが必要になります。
大変お手数ですが、参加申し込み時のアンケートに記載いただくようにお願いいたします。

(1) 渋谷駅からイベント受付まで

＜JR各線からお越しの方＞

アクセス案内 (JR各線)をご参照ください。
ホーム恵比寿方面にある新南改札（サクラステージ直結）をご利用ください。
新南改札を出て右手に進み、突き当たりにオフィスエントランス入り口（3F）があります。
エスカレータを上がってオフィスロビー（5F）にお越しください。

＜その他の路線からお越しの方＞

（ご注意）経路が複雑なため、お時間に余裕を持ってお越しください。
アクセス案内 (東急各線)、アクセス案内 (銀座線)、アクセス案内 (井の頭線)をご参照ください。
スクランブルスクエア、ストリーム、フクラス、サクラステージを繋ぐデッキ（2F）が便利です。
オフィスエントランス（3F）からエスカレータを上がって、オフィスロビー（5F）にお越しください。

(2) イベント受付から会場まで

オフィスロビー（5F）にイベントの臨時受付を設置しますので、そちらにて受付をお願いいたします。入館証をお渡しいたします。
フロアの突き当りまで直進し、入館証記載のコードをフラッパーゲートにかざして入館してください。
エレベーターで23Fまでお上がりください。
23Fにつきましたら、エレベータホールから左手に進み会場にお越しください。

(3) 退館方法

入館証を使って、退館できます。返却は不要です。

会場・飲食スポンサー / LINE WORKS株式会社

LINE WORKS株式会社はトーク・カレンダー・ビデオ会議など、仕事に便利な機能を統合したビジネスコミュニケーションツールを提供しています。また、音声・画像・言語処理などのAI技術の研究開発と社会実装に注力しており、AI議事録、AIトランシーバー、電話応対AI、OCR、クラウド型映像録画など幅広いAIサービスを提供しています。

行動規範

本イベントは、AI関連技術に関する情報交換や交流を行うための場所です。そのため、参加者に対して以下のようなハラスメント行為は許容しません。

言葉による性別、性的指向、障害の有無、外見、身体の大きさ、人種、宗教に関する攻撃的なコメント
公的空間での性的な映像表現
意図的な威力行為、ストーキング、つきまとい
写真撮影や録音によるいやがらせ
トークやその他の会議イベントに対して繰り返して中断しようとする行為
望まれない性的な注意を引きつける行為

ハラスメント行為に遭った、目撃した場合には、スタッフの誰かに連絡していただくようお願いします。ハラスメント行為を止めるように言われた参加者は、直ちに従ってください。

懇親会は、イベントの内容や技術情報に関する交流が目的ですので、知識の共有および、参加者同士の交流を目的としないような参加は控え下さい。

資料資料をもっと見る／編集する

フィード

Teppei Mikiさんが資料をアップしました。

2025/07/30 11:02

Teppei Mikiさんが資料をアップしました。

2025/07/29 11:33

Teppei Mikiさんが資料をアップしました。

2025/07/26 09:27

Teppei Mikiさんが資料をアップしました。

2025/07/26 09:27

Teppei Miki さんが【増枠】SUMO.ai #01 - マルチモーダルAI技術勉強会を公開しました。

2025/07/09 18:03

SUMO.ai #01 初場所を公開しました！