コンテンツにスキップ

モデルとプロバイダ

Koharu は vision モデルと language モデルの両方を使います。vision スタックはページを整え、language スタックは翻訳を担当します。

これらがアーキテクチャ上どう組み合わさっているかを知りたい場合は、このページのあとに 技術的な詳細解説 を読んでください。

Vision モデル

Koharu は、必要な vision モデルを初回利用時に自動でダウンロードします。

既定のスタックには次が含まれます。

変換済みのモデル重みは、Rust での互換性と性能のために、Hugging Face 上で safetensors 形式で公開されています。

各 vision モデルの役割

モデル モデル種別 Koharu で使う理由
PP-DocLayoutV3 レイアウト検出器 テキストらしい領域と読み順を見つける
comic-text-detector segmentation network クリーンアップ用の text mask を作る
PaddleOCR-VL-1.5 vision-language model 切り出したテキストを文字列へ読む
lama-manga inpainting network 文字除去後の画像を補完する
YuzuMarker.FontDetection classifier / regressor レンダリング用のフォントやスタイルのヒントを推定する

重要なのは、Koharu がページ上の全作業を 1 つのモデルに任せていないことです。レイアウト、segmentation、OCR、inpainting はそれぞれ出力形が異なります。

  • レイアウトが欲しいのは領域と順序
  • segmentation が欲しいのはピクセル単位の mask
  • OCR が欲しいのは文字列
  • inpainting が欲しいのは補完されたピクセル

ローカル LLM

Koharu は llama.cpp を通じてローカル GGUF モデルをサポートします。これらのモデルは手元のマシンで動き、LLM ピッカーで選んだときに必要に応じてダウンロードされます。

実際には、ローカルモデルの多くは量子化済みの decoder-only transformer です。GGUF はファイル形式であり、llama.cpp は推論ランタイムです。

英語出力向けに勧められるローカルモデル

  • vntl-llama3-8b-v2: Q8_0 で約 8.5 GB。翻訳品質を優先するなら有力
  • lfm2-350m-enjp-mt: 非常に小さく、低メモリ環境や高速プレビュー向け

中国語出力向けに勧められるローカルモデル

より広い言語対応向けのローカルモデル

リモートプロバイダ

Koharu は、ローカルモデルをダウンロードせずに、リモートまたはセルフホストの API を使って翻訳することもできます。

対応しているプロバイダ:

  • OpenAI
  • Gemini
  • Claude
  • DeepSeek
  • LM Studio、OpenRouter、または /v1/models/v1/chat/completions を公開する任意のエンドポイントなどの OpenAI 互換 API

リモートプロバイダは Settings > API Keys で設定します。

LM Studio、OpenRouter、類似エンドポイントの具体的な設定手順は OpenAI 互換 API を使う を参照してください。

ローカルとリモートをどう選ぶか

ローカルモデルが向くケース:

  • できるだけプライベートにしたい
  • ダウンロード後はオフラインで使いたい
  • ハードウェア使用量を細かく把握したい

リモートプロバイダが向くケース:

  • 大きなローカルモデルのダウンロードを避けたい
  • ローカルの VRAM / RAM 消費を減らしたい
  • ホスト型または自前管理のモデルサービスに接続したい

Note

リモートプロバイダを使う場合、Koharu が送るのは翻訳対象として選ばれた OCR テキストです。

背景知識

このページに出てくるモデル分類の理論や図を確認したい場合は、次を参照してください。