モデルとプロバイダ¶

Koharu は vision モデルと language モデルの両方を使います。vision スタックはページを整え、language スタックは翻訳を担当します。

これらがアーキテクチャ上どう組み合わさっているかを知りたい場合は、このページのあとに技術的な詳細解説を読んでください。

Vision モデル¶

Koharu は、必要な vision モデルを初回利用時に自動でダウンロードします。

既定のスタックには次が含まれます。

変換済みのモデル重みは、Rust での互換性と性能のために、Hugging Face 上で safetensors 形式で公開されています。

モデル	モデル種別	Koharu で使う理由
`PP-DocLayoutV3`	レイアウト検出器	テキストらしい領域と読み順を見つける
`comic-text-detector`	segmentation network	クリーンアップ用の text mask を作る
`PaddleOCR-VL-1.5`	vision-language model	切り出したテキストを文字列へ読む
`lama-manga`	inpainting network	文字除去後の画像を補完する
`YuzuMarker.FontDetection`	classifier / regressor	レンダリング用のフォントやスタイルのヒントを推定する

重要なのは、Koharu がページ上の全作業を 1 つのモデルに任せていないことです。レイアウト、segmentation、OCR、inpainting はそれぞれ出力形が異なります。

Koharu は llama.cpp を通じてローカル GGUF モデルをサポートします。これらのモデルは手元のマシンで動き、LLM ピッカーで選んだときに必要に応じてダウンロードされます。

実際には、ローカルモデルの多くは量子化済みの decoder-only transformer です。GGUF はファイル形式であり、llama.cpp は推論ランタイムです。

Koharu は、ローカルモデルをダウンロードせずに、リモートまたはセルフホストの API を使って翻訳することもできます。

対応しているプロバイダ:

OpenAI
Gemini
Claude
DeepSeek
LM Studio、OpenRouter、または /v1/models と /v1/chat/completions を公開する任意のエンドポイントなどの OpenAI 互換 API

リモートプロバイダは Settings > API Keys で設定します。

LM Studio、OpenRouter、類似エンドポイントの具体的な設定手順は OpenAI 互換 API を使うを参照してください。

ローカルモデルが向くケース:

リモートプロバイダが向くケース:

Note

リモートプロバイダを使う場合、Koharu が送るのは翻訳対象として選ばれた OCR テキストです。

このページに出てくるモデル分類の理論や図を確認したい場合は、次を参照してください。