Ollama

OllamaはローカルでLLMを実行できるツールである。

Ollamaとは？

Ollamaは、最近AI/LLM開発者の間でよく使われているツールである。

Ollamaは、ローカル環境で大規模言語モデル（LLM）を簡単に実行・管理できるオープンソースプラットフォームである。
つまり、OpenAI APIのようなクラウドモデルを使わなくても、**自分のPC（Mac/Linux/Windows）**でLlama、Mistral、Gemma、CodeLlamaなどのモデルを読み込んで使用できる。

Ollamaの主な特徴

ローカル実行をサポート
- インターネット接続なしでもモデルを実行可能
- 企業セキュリティや個人のプライバシーに有利
簡単なモデル配布
- ollama run llama3のような1行のコマンドでモデルを実行
- Dockerのようにモデルパッケージ管理をサポート（Modelfileという設定ファイルで管理）
複数モデルをサポート
- Meta LLaMA、Mistral、Gemma、Code Llama、Phiなど多様なモデルをダウンロードして実行可能
API提供
- REST API形式でローカルサーバー（http://localhost:11434/api/generate）を開き、他のアプリから呼び出し可能
- ローカルOpenAI APIサーバーのように活用可能
GPU最適化
- MPS（Mac）、CUDA（NVIDIA GPU）をサポートし高速
- CPUでも実行可能だが速度は低下する

Ollamaの使用

インストール

macOS/Linux/Windows向けパッケージも提供
- https://ollama.com/download
macOS
- brew install ollama

macOSでインストール完了後に実行すると、メニューバーにOllamaアイコンが表示される。
Ollama

モデル実行

ollama run llama3

初回実行時はモデルを自動ダウンロードしてから実行する。llama3モデルの容量は4.7GB。

モデルのダウンロード

公式サイトで使用するmodelを検索し、気に入ったモデルをインストールする。

推奨モデル
- https://www.ollama.com/library/gpt-oss
  - ChatGPTレベルのチャット、分析、業務などを望む場合に使用する。MacBookでは少し遅いが動作は良好。
- https://www.ollama.com/library/phi4-mini
  - 単純なMCP server呼び出し対象探索などの簡単な作業に向いている。toolsをサポートする軽量モデルならどれでもよい。qwen、deepseekは使用禁止。

API呼び出し（例: curl）

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms"
}'

モデル管理

ollama list -> インストール済みモデルを確認
ollama pull mistral -> 新しいモデルをダウンロード
ollama create mymodel -f Modelfile -> カスタムモデルを作成

Ollamaと他のLLM実行フレームワークの比較

ツール	特徴
Ollama	最も簡単なインストール/実行、ローカルAPI提供、モデルパッケージ管理
LM Studio	GUIベース、モデル選択と実行が直感的
vLLM	高性能サーバー実行に最適化、主に大規模デプロイで使用
Text Generation WebUI	多様なモデル実行 + Web UI提供
OpenAI API	クラウドベースで最新モデルを使用可能。ただし費用/プライバシーの問題あり

活用事例

開発環境でローカルAIアシスタントを構築
社内セキュリティデータと接続した内部チャットボット
LangChain、LlamaIndexのようなフレームワークと連携してRAGシステムを構築
プロトタイピング: OpenAI API費用を使わず素早く実験

まとめ

Ollamaはローカルで簡単にLLMを実行できる「LLMのDocker」のようなプラットフォームである。個人研究から企業向けチャットボットまで幅広く使える。