1. 概要 本記事では、Meta の LLM である Llama3 70B モデル を RTX3090(24GB)を搭載した計算機二台で分散学習する手法について紹介します。 kubernetes で作成した オンプレミスの GPU クラスタ(RTX3090×2)にて、FSDP_QLoRa という手法を活用した分散学習を行うことで、24GB GPU を搭載した PC 二台という比較的実現しやすい環境での学習を実現します。 2. 前提 対象者 LLM をトレーニングしたいが、API(OpenAI など)経由だと簡単なファインチューニングしかできない、クラウドサービス上での学習はコスト的に厳しい、けど 24GB GPU を搭載した PC 二台くらいは用意できるという方。(研究室の学生はこういう方多いんじゃないでしょうか?知らんけど) FSDP_QLoRa について FSDP_QLoRa とは、Q

