Codex 画像生成を使う¶

Koharu は Codex を使ったエンドツーエンドの image-to-image 生成に対応しています。このワークフローでは、元ページ画像とプロンプトを Codex に送り、生成された画像をレンダリング済みページ結果として保存します。

要件¶

Codex にアクセスできる ChatGPT アカウント
そのアカウントで有効化された 2 要素認証
OpenAI と ChatGPT サービスへ接続できるネットワーク

デバイスコードログインを正常に完了するには、事前に 2 要素認証を有効にしておく必要があります。

この機能でできること¶

Codex の image-to-image 生成は、ページ全体を描き直すワークフローです。元画像とプロンプトを使って、次のような処理を 1 回で行えます。

表示されている文字を翻訳する
元の文字を消す
編集された領域を描き直す
コマ割り、吹き出し、トーン、構図を保つ
生成済みのページ画像を出力する

これは Koharu の段階的なローカルパイプラインとは別の機能です。ローカルパイプラインでは、検出、OCR、インペイント、翻訳、レンダリングを個別のステップとして実行します。Codex ワークフローでは、ページ画像をリモートサービスへ送り、生成画像を受け取ります。

プロンプト¶

ページ全体としてほしい結果を説明するプロンプトを使ってください。例:

Translate all visible text to natural English, remove the original lettering,
and redraw the page as a clean manga image while preserving the artwork,
panel layout, speech bubbles, tone, and composition.

より狭い編集では、変更したい内容と維持したい要素を明確に書きます。モデルには元ページ画像も渡されるため、プロンプトでは細部をすべて説明するよりも、変換の目的を中心に書くと扱いやすくなります。

プライバシーと信頼性¶

この機能は、元ページ画像とプロンプトを ChatGPT Codex バックエンドへ送信します。オフライン処理が必要な場合や、ページ画像をリモートプロバイダーへ送信したくない場合は、ローカルパイプラインを使用してください。

Codex 画像生成は OpenAI の上流サービスに依存します。生成に失敗した場合、利用可能であれば Koharu は上流の応答テキストとリクエスト ID を表示します。一時的な失敗であれば再試行で成功することがあります。失敗が続く場合は、アカウントのアクセス権、サービスの可用性、または画像生成ツール呼び出しに対するバックエンド側の対応状況が原因の可能性があります。

使い分け¶

リモートモデルで最終画像を一括生成したい場合は、Codex 画像生成を使います。

中間の OCR、クリーンアップマスク、翻訳テキスト、フォント、編集可能な出力を細かく制御したい場合は、ローカルの段階的パイプラインを使います。