Ollama

OllamaはローカルでLLMを実行できるツールである。

Ollamaとは?

Ollamaは、最近AI/LLM開発者の間でよく使われているツールである。

Ollamaは、ローカル環境で大規模言語モデル(LLM)を簡単に実行・管理できるオープンソースプラットフォームである。
つまり、OpenAI APIのようなクラウドモデルを使わなくても、**自分のPC(Mac/Linux/Windows)**でLlama、Mistral、Gemma、CodeLlamaなどのモデルを読み込んで使用できる。

Ollamaの主な特徴

  1. ローカル実行をサポート
    • インターネット接続なしでもモデルを実行可能
    • 企業セキュリティや個人のプライバシーに有利
  2. 簡単なモデル配布
    • ollama run llama3のような1行のコマンドでモデルを実行
    • Dockerのようにモデルパッケージ管理をサポート(Modelfileという設定ファイルで管理)
  3. 複数モデルをサポート
    • Meta LLaMA、Mistral、Gemma、Code Llama、Phiなど多様なモデルをダウンロードして実行可能
  4. API提供
    • REST API形式でローカルサーバー(http://localhost:11434/api/generate)を開き、他のアプリから呼び出し可能
    • ローカルOpenAI APIサーバーのように活用可能
  5. GPU最適化
    • MPS(Mac)、CUDA(NVIDIA GPU)をサポートし高速
    • CPUでも実行可能だが速度は低下する

Ollamaの使用

インストール

macOSでインストール完了後に実行すると、メニューバーにOllamaアイコンが表示される。
Ollama

モデル実行

ollama run llama3

初回実行時はモデルを自動ダウンロードしてから実行する。llama3モデルの容量は4.7GB。

モデルのダウンロード

公式サイトで使用するmodelを検索し、気に入ったモデルをインストールする。

  • 推奨モデル
    • https://www.ollama.com/library/gpt-oss
      • ChatGPTレベルのチャット、分析、業務などを望む場合に使用する。MacBookでは少し遅いが動作は良好。
    • https://www.ollama.com/library/phi4-mini
      • 単純なMCP server呼び出し対象探索などの簡単な作業に向いている。toolsをサポートする軽量モデルならどれでもよい。qwen、deepseekは使用禁止。

API呼び出し(例: curl)

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms"
}'

モデル管理

  • ollama list -> インストール済みモデルを確認
  • ollama pull mistral -> 新しいモデルをダウンロード
  • ollama create mymodel -f Modelfile -> カスタムモデルを作成

Ollamaと他のLLM実行フレームワークの比較

ツール 特徴
Ollama 最も簡単なインストール/実行、ローカルAPI提供、モデルパッケージ管理
LM Studio GUIベース、モデル選択と実行が直感的
vLLM 高性能サーバー実行に最適化、主に大規模デプロイで使用
Text Generation WebUI 多様なモデル実行 + Web UI提供
OpenAI API クラウドベースで最新モデルを使用可能。ただし費用/プライバシーの問題あり

活用事例

  • 開発環境でローカルAIアシスタントを構築
  • 社内セキュリティデータと接続した内部チャットボット
  • LangChain、LlamaIndexのようなフレームワークと連携してRAGシステムを構築
  • プロトタイピング: OpenAI API費用を使わず素早く実験

まとめ

Ollamaはローカルで簡単にLLMを実行できる「LLMのDocker」のようなプラットフォームである。個人研究から企業向けチャットボットまで幅広く使える。