最初のページを翻訳する¶
このチュートリアルでは、1 枚の漫画ページに対する Koharu の基本的な流れを順番にたどります。内容は、読み込み、検出、認識、翻訳、レビュー、書き出しです。
始める前に¶
- 最新の GitHub リリースから Koharu をインストールしておく
.png、.jpg、.jpeg、.webpのいずれかで、できるだけきれいなページ画像を用意する- 使いたいモデルに対して十分な VRAM または RAM があることを確認する。足りない場合はリモートプロバイダを使う
まだ Koharu をインストールしていない場合は、先に Koharu をインストールする を参照してください。
1. Koharu を起動する¶
通常どおりデスクトップアプリを開きます。
初回起動時は、ローカルのランタイムパッケージ初期化や既定の vision スタックのダウンロードに時間がかかることがあります。これは想定された挙動で、通常はマシンごと、またはランタイム更新ごとに一度だけ発生します。
2. ページを読み込む¶
ページ画像をアプリに読み込みます。
現時点で文書化されている読み込みフローは、プロジェクトファイル方式ではなく画像ベースです。単一ファイルではなくフォルダを読み込んだ場合、Koharu は再帰的に走査して対応画像ファイルだけを対象にします。
最初は 1 枚だけのきれいなページで試すと、次を判断しやすくなります。
- テキスト検出の品質
- OCR の品質
- 翻訳の品質
- 吹き出しへの最終的な収まり
3. テキストを検出して OCR を実行する¶
Koharu 組み込みの vision パイプラインで次を行います。
- テキストらしいレイアウト領域を検出する
- クリーンアップ用の segmentation mask を作る
- フォントや色のヒントを推定する
- OCR で元のテキストを認識する
内部的には、Koharu はページ全体に対してそのまま OCR をかけているわけではありません。先にテキストブロックを作成し、それぞれの領域を切り出してから OCR を実行します。
検出と OCR の後は、翻訳前にページを確認してください。見るべき点は次の通りです。
- 吹き出しやキャプションの取りこぼし
- 重複した、または位置が不自然なテキストブロック
- 明らかな OCR 誤認識
- 縦書きのまま扱うべき縦テキスト
構造上の問題を翻訳前に直しておくと、後工程の手戻りがかなり減ります。
4. 翻訳バックエンドを選ぶ¶
次のどちらかを選びます。
- すべてを手元で完結させたいならローカル GGUF モデル
- ローカルモデルのダウンロードや重い推論を避けたいならリモートプロバイダ
Koharu は OpenAI、Gemini、Claude、DeepSeek に加えて、LM Studio や OpenRouter のような OpenAI 互換エンドポイントにも対応しています。
LM Studio、OpenRouter、その他の OpenAI 形式エンドポイントを使いたい場合は、OpenAI 互換 API を使う を参照してください。
実際の使い分けとしては、次の傾向があります。
- プライバシーやオフライン利用を重視するならローカルモデルが向いている
- マシンのメモリに余裕がないならリモートモデルのほうが扱いやすい
- リモートプロバイダを使う場合、Koharu が送るのはページ画像全体ではなく OCR テキスト
5. 翻訳して確認する¶
ページに対して翻訳を実行し、その結果を丁寧に確認します。
Koharu はテキストレイアウトや縦書き CJK レンダリングを補助しますが、最終的なページ品質のためには目視確認がまだ重要です。特に次を確認してください。
- 固有名詞や用語
- 口調やキャラクターの声
- 改行位置と吹き出しへの収まり
- フォント選択と縁取りの読みやすさ
- 元の OCR が不安定だったブロック
翻訳文として正しくても見た目が窮屈なら、書き出す前にテキストブロックやスタイルを調整してください。
6. 結果を書き出す¶
ページが仕上がったら、次の工程に合う形式で書き出します。
- 1 枚に統合された最終ページとして使うなら rendered image
- 編集可能なテキストや補助レイヤーを残したいなら PSD
ページが完成しているなら rendered export が向いています。PSD export は、次のような後仕上げを続けたい場合に向いています。
- 文言を少し修正する
- アーティファクトを塗り直す
- 補助レイヤーを隠す、または確認する
- Photoshop で仕上げる
7. 最初の結果が十分でない場合¶
よくある対処は次の通りです。
- ページ選択や不良ブロックの差し替え後に検出をやり直す
- OCR や翻訳テキストを手で修正する
- より強い翻訳モデルに切り替える
- PSD を書き出して、手作業でレタリングを整える
Koharu は高速な第一稿として使い、必要な箇所だけ人手でレビューする運用に向いています。
次に読むページ¶
- 書き出し方法を知る: ページを書き出し、プロジェクトを管理する
- ランタイムの選び方を比較する: アクセラレーションとランタイム
- モデル構成を理解する: 技術的な詳細解説
- 翻訳バックエンドを選ぶ: モデルとプロバイダ