ローカルLLM
概要
トークン節約のための軽量タスク処理プロバイダー。Phase 4 で Ollama を利用して実装予定。翻訳、要約、簡単な Q&A など、高度な推論を必要としないタスクを処理する。
ステータス
⏳ Phase 4 で実装予定
計画設定
yaml
# config/providers.yaml
local_llm:
enabled: false # Phase 4 で有効化
engine: ollama
model: qwen2.5:14b
endpoint: "http://localhost:11434"
capabilities:
- text_summarize
- text_translate
- text_rewrite
- simple_qa
health_check:
endpoint: "http://localhost:11434/api/tags"
interval: 60
scripts:
health: providers/local-llm/scripts/health-check.sh対応タスク
| タスク種別 | トークン重み | 備考 |
|---|---|---|
| テキスト翻訳 | LOW | 日↔英 主要対応 |
| テキスト要約 | LOW | 5000文字以下 |
| テキストリライト | LOW | トーン変換 |
| 簡単QA | LOW | 事実ベースの質問 |
セットアップ手順(Phase 4)
bash
# 1. Ollama インストール
brew install ollama
# 2. モデルダウンロード
ollama pull qwen2.5:14b
# 3. サービス起動
ollama serve
# 4. ヘルスチェック
curl http://localhost:11434/api/tags予算連動
トークン予算の消費に応じて、自動的にタスクがローカルLLMにルーティングされる:
- 80% 消費: 要約・翻訳がローカルLLMに移行
- 95% 消費: 全非クリティカルタスクがローカルLLMに移行
- 100% 消費: 重要タスクのみ Claude で処理
フォールバック
ローカルLLM が利用不可の場合 → Claude にフォールバック(トークン消費増加の警告付き)