79
93

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

手軽に最新LLM!OllamaとQwen3でローカルAI環境を構築する方法

Last updated at Posted at 2025-05-21

こんにちわ、kaitoです。最近、AIの世界がまた一段と面白くなってきたよな。特に、ローカル環境でサクッと大規模言語モデル(LLM)を動かせるツールが出てきてから、俺たちの開発スタイルも変わりつつある。

今回は、巷で噂のQwen3っていうLLMを、俺のマシンで動かしてみた話をしようと思う。しかも、手軽に使えるOllamaと、APIテストでお世話になってるApidogを組み合わせてみたんだ。クラウドAPIも便利だけど、やっぱり自分のPCで動かすと、なんかこう、手に馴染む感じがしていいんだよな。プライバシーも守れるし、オフラインでも使えるってのが最高だぜ!

この記事では、Qwen3をOllamaで動かして、ApidogでAPIを叩いてみるまでの道のりを、初心者プログラマー目線でステップごとに解説していくぜ。LM StudioとかvLLMとか、他のツールもあるけど、今回はOllamaとApidogに絞って話を進めるから、そこんとこヨロシク!

Qwen3って、ぶっちゃけどうなの?

まず、Qwen3について簡単に触れておこう。これはAlibabaのQwenチームが出した最新のLLMで、コーディングとか数学、推論タスクでかなりの実力を見せてるらしい。特に注目なのが、量子化モデルってやつだ。これのおかげで、普通のPCでも動かせるくらい計算リソースやメモリを食わなくなったんだ。
qwen3-1.png

Qwen3にはいくつか種類があるんだけど、ローカルで試すなら、まずは小さめのモデルから始めるのがおすすめだ。例えば、Qwen3-4Bとかね。こいつがまた、サイズからは想像できないくらい賢いんだ。

あと、Qwen3には「思考モード」っていう面白い機能もあるらしい。プロンプトに/thinkとか付けると、じっくり考えてから答えを出してくれるんだとか。これは後で試してみる価値ありだな。

俺のマシンでQwen3を動かすための準備

Qwen3をローカルで動かすには、いくつか準備が必要だ。まあ、そんな大したことじゃないから安心してくれ。

ハードウェアの確認

最低限、これくらいは欲しいかな。

  • CPUまたはGPU: まあ、最近のやつなら大丈夫だろう。GPUがあると推論が速くなるから、できればNVIDIAとかのそこそこ良いやつがあると嬉しい。
  • RAM: Qwen3-4Bみたいな小さめのモデルでも、最低16GBは欲しいところ。32GB以上あると、もっと大きなモデルも試せるし、快適に動くぜ。
  • ストレージ: モデルのサイズによるけど、結構容量を食う場合がある。Qwen3-235B-A22Bとかだと150GBくらい必要になることもあるらしいから、空き容量は確認しておこう。

俺のマシンはそこそこスペックがあるから、この辺はクリアだ。皆さんのマシンはどうだ?

ステップ1:Qwen3モデルを手に入れる

まずは、Qwen3の量子化モデルをダウンロードする必要がある。公式がHugging FaceとModelScopeで公開してるから、そこから手に入れるのが一番安心だ。

今回はHugging Faceから、手軽なGGUF形式のQwen3-4Bをダウンロードしてみよう。

Hugging Faceからのダウンロード

  1. Hugging FaceのQwen3コレクションページにアクセスする。
  2. 「Qwen/Qwen3-4B」みたいなモデルを探す。
  3. ダウンロードボタンをクリックするか、Gitコマンドでクローンする。俺はGitでやるのが好きだな。
    git clone https://huggingface.co/Qwen/Qwen3-4B-GGUF
    
  4. ダウンロードしたモデルファイルは、Ollamaが読み込める場所に置いておこう。例えば、/models/qwen3-4b-ggufとか、分かりやすい場所がいいぜ。

これでモデルの準備はOKだ。次はOllamaを使ってこいつを動かしてみよう!

ステップ2:OllamaでQwen3を動かす!

Ollamaは、ローカルでLLMを動かすのにめちゃくちゃ便利なツールだ。コマンド一つでモデルをダウンロードして実行できるから、初心者にも優しい。Qwen3のGGUF形式もバッチリサポートしてるぜ。

Ollamaのインストール

まだOllamaを入れてないなら、公式サイトからダウンロードする。

インストールできたか確認してみよう。

ollama --version

ollama-version-1.png

バージョンが表示されれば成功だ。

OllamaでQwen3を実行!

Ollamaのインストールが終わったら、いよいよQwen3を動かすぞ。ダウンロードしたモデルを使う場合は、Modelファイル(例えばQwen3-4B-GGUF/Qwen3-4B-Q8_0.ggufとか)を指定して、Modelファイルを作成する必要がある。

まず、Modelファイルを作成するためのModelfileを用意する。内容はこんな感じだ。

FROM /path/to/your/model/Qwen3-4B-Q8_0.gguf
TEMPLATE """{{ .Prompt }}"""

Modelfile ファイルの作成方法:

  1. ローカルの GGUF ファイルのパスを見つける:
    /path/to/your/model/Qwen3-4B-Q8_0.gguf

  2. nano エディタを使って modelfile という名前のテキストファイルを新規作成する。

    • ファイルの内容は、以下のように正しい Modelfile の設定にする:
    FROM /path/to/your/model/Qwen3-4B-Q8_0.gguf
    TEMPLATE """{{ .Prompt }}"""
    
  3. (nano エディタ内で)下記の手順で保存するだけでよい:

    Ctrl+O(Ctrlキーを押しながら O)を押し、その後エンターキーでファイル名を確定
    Ctrl+X で nano を終了

/path/to/your/model/Qwen3-4B-Q8_0.ggufの部分は、さっきダウンロードしたモデルファイルの絶対パスに置き換えてくれよな。

このModelfileを適当な名前(例えばmy-qwen3-8b-local)で保存したら、以下のコマンドでOllamaにモデルを登録する。

ollama create my-qwen3-8b-local -f ./modelfile

my-qwen3-8b-localは好きなモデル名でいいぜ。-fの後ろは、保存したModelfileのパスだ。

登録が終わったら、いよいよ実行だ!

ollama run my-qwen3-8b-local

これでQwen3が起動するはずだ。起動したら、コマンドラインで直接話しかけてみよう。

>>> 今週の東京の天気予報はどうですか?

qwen3-4b-gguf.png

ちゃんと応答があれば成功だ!

Ollamaは、http://localhost:11434でAPIエンドポイントも公開してるんだ。これを使えば、プログラムからQwen3を操作できる。次は、このAPIをApidogでテストしてみよう!

ステップ3:ApidogでQwen3 APIをテスト!

開発者なら、APIのテストは避けて通れない道だよな。ローカルで動かしてるLLMのAPIも、ちゃんとテストしておきたい。そこで俺がいつも使ってるのがApidogだ。こいつがまた、API開発からテストまでこれ一つで完結できて、マジで手放せないんだ。

Apidogの準備

  • まだApidogを使ってないなら、公式サイトからダウンロードしてインストールしておこう。
  • Apidogを起動して、新しいプロジェクトを作成する。

Ollama APIをApidogで叩く!

さあ、Apidogを使ってOllamaのAPIをテストしてみるぞ。

  1. Apidogで新しいAPIリクエストを作成する。
  2. リクエストのURLを http://localhost:11434/api/generate に設定する。これがOllamaのテキスト生成APIのエンドポイントだ。
  3. Methodは POST を選択。
  4. Bodyタブを開いて、rawを選び、タイプをJSONにする。
  5. 以下のJSONをBodyに入力する。modelには、さっきollama createで登録したモデル名(例: my-qwen3-8b-local)を指定するのを忘れるなよ!
{
  "model": "my-qwen3-8b-local",
  "prompt": "今週の東京の天気予報はどうですか?",
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20
}

promptには聞きたいことを書く。temperatureとかtop_ptop_kは、応答の多様性とかを調整するパラメータだ。この辺は後で微調整できる。
6. 「送信」ボタンをクリック!

apidog-qwen3.png

どうだ?ちゃんとQwen3からの応答が返ってきたか?Apidogなら、ストリーミング応答もリアルタイムで見れるから、LLMの応答が生成されていく様子が分かって便利なんだ。デバッグも捗るぜ!

ステップ4:Qwen3の応答をチューニングする

Qwen3の応答をもっと自分の好みに合わせたいなら、いくつかのパラメータを調整してみよう。

思考モードを使いこなす

さっきも触れた「思考モード」だ。これをオンにすると、Qwen3はより深く考えてから応答を生成するようになる。複雑な問題とか、じっくり考えて欲しい時には有効だ。

使い方は簡単。プロンプトの最後に/thinkって付けるだけだ。思考モードをオフにしたい時は/no_thinkを付ける。

  • 例: この数学の問題を解いてください /think

生成パラメータをいじる

ApidogでAPIを叩くときにも設定したパラメータだ。こいつらをいじることで、Qwen3の応答の「個性」を変えることができる。

  • Temperature: 値が大きいほど、応答がランダムで創造的になる。小さいと、より定型的で予測可能な応答になる。Qwenチームは思考モードなら0.6、それ以外なら0.7を推奨してるらしい。
  • Top-P: 確率の高いトークンから順に、累積確率がこの値を超えるまで候補を選ぶ。小さい値だと、より確率の高いトークンが選ばれやすくなる。推奨は思考モードで0.95、それ以外で0.8だ。
  • Top-K: 確率の高い上位K個のトークンから候補を選ぶ。推奨は両方のモードで20だ。

これらのパラメータを色々試してみて、自分の求める応答が得られるように調整してみよう。貪欲なデコーディング(Temperatureを0にするなど)は避けた方が良い結果になりやすいらしいぜ。

まとめ

いやー、どうだった?Ollamaを使えば、Qwen3みたいな最新のLLMも、俺たちのローカルマシンでこんなに手軽に動かせるんだ。しかも、Apidogを使えば、そのAPIを簡単にテストできる。

特にQwen3は、小さめのモデルでも結構賢いから、普通のPCでも十分遊べるし、実用的な使い方もできそうだ。ローカルで動かすメリットは大きいよな。プライバシーも安心だし、コストもかからない。

ハードウェアもソフトウェアもどんどん進化して、LLMの力はクラウドだけじゃなく、俺たちの手元にもやってきてる。OllamaとApidog、そしてQwen3。この組み合わせ、マジで試す価値ありだぜ!

お前らもQwen3、試してみたか?どんなことに使ってるか、ぜひコメントで教えてくれ!他のモデルとの比較とか、パフォーマンスの話とかも聞きたいな。じゃ、また次の記事で会おう!

79
93
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
79
93

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?