模型与提供商¶

Koharu 同时使用视觉模型和语言模型。视觉栈负责准备页面，语言栈负责翻译文本。

如果你想从架构层面理解这些部分如何组合，请在阅读本页后继续看技术深潜。

视觉模型¶

Koharu 会在首次使用时自动下载所需的视觉模型。

当前默认栈包括：

用于同时检测文本块和气泡的 comic-text-bubble-detector
用于生成文本分割掩码的 comic-text-detector
用于 OCR 文本识别的 PaddleOCR-VL-1.5
作为默认修复器的 aot-inpainting
用于字体与颜色检测的 YuzuMarker.FontDetection

有些模型直接使用上游 Hugging Face 仓库，另一些则因为 Koharu 需要 Rust 友好的 safetensors 版本，而由 Hugging Face 托管转换后的权重。

每个视觉模型是什么¶

模型	模型类型	Koharu 使用它的原因
`comic-text-bubble-detector`	object detector	一次推理同时找出文本块和气泡区域
`comic-text-detector`	分割网络	生成清理用的文本掩码
`PaddleOCR-VL-1.5`	视觉语言模型	把裁剪图像读成文本 token
`aot-inpainting`	修复网络	在去字后补全被掩码覆盖的区域
`YuzuMarker.FontDetection`	分类 / 回归模型	为渲染估计字体与风格提示

最重要的设计点是：Koharu 不会用一个模型硬扛所有页面任务。检测、分割、OCR 和修复需要完全不同的输出形式：

联合检测需要文本块和气泡区域
分割需要逐像素掩码
OCR 需要文本
修复需要恢复后的像素

内置可选替代引擎¶

你可以在 Settings > Engines 中按阶段替换模型。内置替代项包括：

作为替代检测 / 版面分析引擎的 PP-DocLayoutV3
作为专用气泡检测器的 speech-bubble-segmentation
作为替代 OCR 的 Manga OCR 和 MIT 48px OCR
作为可选 FLUX.2 修复器的 FLUX.2 Klein 4B
作为替代修复器的 lama-manga

本地 LLM¶

Koharu 通过 llama.cpp 支持本地 GGUF 模型。这些模型运行在你的机器上，并在你从 LLM 选择器里选择它们时按需下载。

在实践中，这些本地模型通常是量化后的 decoder-only transformer。GGUF 是文件格式，llama.cpp 是推理运行时。

面向英文输出的翻译型内置本地模型¶

vntl-llama3-8b-v2：Q5_K_M GGUF，更适合追求翻译质量
lfm2.5-1.2b-instruct：更小的多语言 instruction 模型，适合低内存机器或更快的迭代
sugoi-14b-ultra 和 sugoi-32b-ultra：更大的翻译取向模型，适合有更多 VRAM / RAM 的环境

面向中文输出的翻译型内置本地模型¶

sakura-galtransl-7b-v3.7：在 8 GB 级别显卡上兼顾质量与速度
sakura-1.5b-qwen2.5-v1.0：更轻、更快，适合中端显卡或偏 CPU 的环境

面向更广泛语言覆盖的翻译型内置本地模型¶

hunyuan-mt-7b：一款多语言模型，对硬件要求适中

其他内置本地模型家族¶

本地模型选择器里还包含一些并非专门为翻译调校的通用家族：

Gemma 4 instruct：gemma4-e2b-it、gemma4-e4b-it、gemma4-26b-a4b-it、gemma4-31b-it
Gemma 4 uncensored：gemma4-e2b-uncensored、gemma4-e4b-uncensored
Qwen 3.5：qwen3.5-0.8b、qwen3.5-2b、qwen3.5-4b、qwen3.5-9b、qwen3.5-27b、qwen3.5-35b-a3b
Qwen 3.5 uncensored：qwen3.5-2b-uncensored、qwen3.5-4b-uncensored、qwen3.5-9b-uncensored、qwen3.5-27b-uncensored、qwen3.5-35b-a3b-uncensored
Qwen 3.6：qwen3.6-27b、qwen3.6-35b-a3b
Qwen 3.6 uncensored：qwen3.6-27b-uncensored、qwen3.6-35b-a3b-uncensored

远程提供商¶

Koharu 也可以通过远程或自托管 API 翻译，而不下载本地模型。

支持的提供商家族包括：

LLM 驱动：OpenAI、Gemini、Claude、DeepSeek，以及任何暴露 /v1/models 与 /v1/chat/completions 的 OpenAI 兼容 端点（LM Studio、OpenRouter、vLLM 等）
机器翻译：DeepL、Google Cloud Translation、Caiyun

机器翻译提供商是纯翻译服务，而不是聊天模型。它们接受源文本和目标语言并返回译文，没有 system prompt，也没有模型选择器。

当前内置远程 LLM 模型¶

LLM 驱动提供商的内置目录包括：

OpenAI：GPT-5.5、GPT-5.4、GPT-5.x、GPT-4.1、o 系列、GPT-4o，以及旧版 GPT chat 模型
Gemini：Gemini 3.1、Gemini 3、Gemini 2.5、Gemini 2.0 文本输出模型，以及通过 Gemini API 托管的 Gemma 4
Claude：当前可用的 Claude Opus、Sonnet、Haiku 4.x 模型，以及在上游退役日期前仍可用的已弃用 Claude 4 快照
DeepSeek：DeepSeek V4 Flash、DeepSeek V4 Pro，以及 deepseek-chat / deepseek-reasoner 兼容别名
OpenAI 兼容 API：模型列表会从你配置的端点动态发现

机器翻译提供商¶

提供商	需要的内容	备注
`DeepL`	DeepL API key	可选自定义 base URL，用于切换 DeepL Pro 和 Free 端点
`Google Cloud Translation`	Google Cloud API key	使用 v2 REST 端点
`Caiyun`	Caiyun token	目标语言覆盖范围有限

远程提供商在 Settings > API Keys 中配置。

如果你需要 LM Studio、OpenRouter 或类似端点的逐步配置说明，请参见使用 OpenAI 兼容 API。

Codex 图像生成¶

Koharu 也可以使用 Codex 进行端到端 image-to-image 生成。它不会把文本块翻译和本地文字渲染作为独立步骤处理，而是把源页面图像和提示词发送给 Codex，并接收生成后的页面图像。

这是远程图像生成流程，不是本地模型。它需要拥有 Codex 访问权限的 ChatGPT 账号，并且必须启用双重身份验证才能完成设备码登录。使用说明和注意事项见使用 Codex 图像生成。

如何在本地与远程之间选择¶

以下情况更适合本地模型：

你更在意隐私
下载完成后希望离线运行
你想精细控制本机硬件使用

以下情况更适合远程提供商：

你不想下载体积很大的本地模型
你想减少本地 VRAM 或 RAM 占用
你已经有托管或自管的模型服务

Note

使用远程提供商时，Koharu 会把 OCR 提取出的待翻译文本发送到你配置的服务端。

延伸阅读¶

如果你想了解这些模型分类背后的理论和图示，请参见：