Skip to content

ローカルLLM

概要

トークン節約のための軽量タスク処理プロバイダー。Phase 4 で Ollama を利用して実装予定。翻訳、要約、簡単な Q&A など、高度な推論を必要としないタスクを処理する。

ステータス

⏳ Phase 4 で実装予定

計画設定

yaml
# config/providers.yaml
local_llm:
  enabled: false  # Phase 4 で有効化
  engine: ollama
  model: qwen2.5:14b
  endpoint: "http://localhost:11434"
  capabilities:
    - text_summarize
    - text_translate
    - text_rewrite
    - simple_qa
  health_check:
    endpoint: "http://localhost:11434/api/tags"
    interval: 60
  scripts:
    health: providers/local-llm/scripts/health-check.sh

対応タスク

タスク種別トークン重み備考
テキスト翻訳LOW日↔英 主要対応
テキスト要約LOW5000文字以下
テキストリライトLOWトーン変換
簡単QALOW事実ベースの質問

セットアップ手順(Phase 4)

bash
# 1. Ollama インストール
brew install ollama

# 2. モデルダウンロード
ollama pull qwen2.5:14b

# 3. サービス起動
ollama serve

# 4. ヘルスチェック
curl http://localhost:11434/api/tags

予算連動

トークン予算の消費に応じて、自動的にタスクがローカルLLMにルーティングされる:

  • 80% 消費: 要約・翻訳がローカルLLMに移行
  • 95% 消費: 全非クリティカルタスクがローカルLLMに移行
  • 100% 消費: 重要タスクのみ Claude で処理

フォールバック

ローカルLLM が利用不可の場合 → Claude にフォールバック(トークン消費増加の警告付き)

JCARVIS - "At your service, sir."