跳转至

模型与提供商

Koharu 同时使用视觉模型和语言模型。视觉栈负责准备页面,语言栈负责翻译文本。

如果你想从架构层面理解这些部分如何组合,请在阅读本页后继续看 技术深潜

视觉模型

Koharu 会在首次使用时自动下载所需的视觉模型。

当前默认栈包括:

有些模型直接使用上游 Hugging Face 仓库,另一些则因为 Koharu 需要 Rust 友好的 safetensors 版本,而由 Hugging Face 托管转换后的权重。

每个视觉模型是什么

模型 模型类型 Koharu 使用它的原因
comic-text-bubble-detector object detector 一次推理同时找出文本块和气泡区域
comic-text-detector 分割网络 生成清理用的文本掩码
PaddleOCR-VL-1.5 视觉语言模型 把裁剪图像读成文本 token
aot-inpainting 修复网络 在去字后补全被掩码覆盖的区域
YuzuMarker.FontDetection 分类 / 回归模型 为渲染估计字体与风格提示

最重要的设计点是:Koharu 不会用一个模型硬扛所有页面任务。检测、分割、OCR 和修复需要完全不同的输出形式:

  • 联合检测需要文本块和气泡区域
  • 分割需要逐像素掩码
  • OCR 需要文本
  • 修复需要恢复后的像素

内置可选替代引擎

你可以在 Settings > Engines 中按阶段替换模型。内置替代项包括:

本地 LLM

Koharu 通过 llama.cpp 支持本地 GGUF 模型。这些模型运行在你的机器上,并在你从 LLM 选择器里选择它们时按需下载。

在实践中,这些本地模型通常是量化后的 decoder-only transformer。GGUF 是文件格式,llama.cpp 是推理运行时。

面向英文输出的翻译型内置本地模型

面向中文输出的翻译型内置本地模型

面向更广泛语言覆盖的翻译型内置本地模型

其他内置本地模型家族

本地模型选择器里还包含一些并非专门为翻译调校的通用家族:

  • Gemma 4 instruct:gemma4-e2b-itgemma4-e4b-itgemma4-26b-a4b-itgemma4-31b-it
  • Gemma 4 uncensored:gemma4-e2b-uncensoredgemma4-e4b-uncensored
  • Qwen 3.5:qwen3.5-0.8bqwen3.5-2bqwen3.5-4bqwen3.5-9bqwen3.5-27bqwen3.5-35b-a3b
  • Qwen 3.5 uncensored:qwen3.5-2b-uncensoredqwen3.5-4b-uncensoredqwen3.5-9b-uncensoredqwen3.5-27b-uncensoredqwen3.5-35b-a3b-uncensored
  • Qwen 3.6:qwen3.6-27bqwen3.6-35b-a3b
  • Qwen 3.6 uncensored:qwen3.6-27b-uncensoredqwen3.6-35b-a3b-uncensored

远程提供商

Koharu 也可以通过远程或自托管 API 翻译,而不下载本地模型。

支持的提供商家族包括:

  • LLM 驱动:OpenAIGeminiClaudeDeepSeek,以及任何暴露 /v1/models/v1/chat/completionsOpenAI 兼容 端点(LM Studio、OpenRouter、vLLM 等)
  • 机器翻译:DeepLGoogle Cloud TranslationCaiyun

机器翻译提供商是纯翻译服务,而不是聊天模型。它们接受源文本和目标语言并返回译文,没有 system prompt,也没有模型选择器。

当前内置远程 LLM 模型

LLM 驱动提供商的内置目录包括:

  • OpenAI:GPT-5.5、GPT-5.4、GPT-5.x、GPT-4.1、o 系列、GPT-4o,以及旧版 GPT chat 模型
  • Gemini:Gemini 3.1、Gemini 3、Gemini 2.5、Gemini 2.0 文本输出模型,以及通过 Gemini API 托管的 Gemma 4
  • Claude:当前可用的 Claude Opus、Sonnet、Haiku 4.x 模型,以及在上游退役日期前仍可用的已弃用 Claude 4 快照
  • DeepSeek:DeepSeek V4 Flash、DeepSeek V4 Pro,以及 deepseek-chat / deepseek-reasoner 兼容别名
  • OpenAI 兼容 API:模型列表会从你配置的端点动态发现

机器翻译提供商

提供商 需要的内容 备注
DeepL DeepL API key 可选自定义 base URL,用于切换 DeepL Pro 和 Free 端点
Google Cloud Translation Google Cloud API key 使用 v2 REST 端点
Caiyun Caiyun token 目标语言覆盖范围有限

远程提供商在 Settings > API Keys 中配置。

如果你需要 LM Studio、OpenRouter 或类似端点的逐步配置说明,请参见 使用 OpenAI 兼容 API

Codex 图像生成

Koharu 也可以使用 Codex 进行端到端 image-to-image 生成。它不会把文本块翻译和本地文字渲染作为独立步骤处理,而是把源页面图像和提示词发送给 Codex,并接收生成后的页面图像。

这是远程图像生成流程,不是本地模型。它需要拥有 Codex 访问权限的 ChatGPT 账号,并且必须启用双重身份验证才能完成设备码登录。使用说明和注意事项见 使用 Codex 图像生成

如何在本地与远程之间选择

以下情况更适合本地模型:

  • 你更在意隐私
  • 下载完成后希望离线运行
  • 你想精细控制本机硬件使用

以下情况更适合远程提供商:

  • 你不想下载体积很大的本地模型
  • 你想减少本地 VRAM 或 RAM 占用
  • 你已经有托管或自管的模型服务

Note

使用远程提供商时,Koharu 会把 OCR 提取出的待翻译文本发送到你配置的服务端。

延伸阅读

如果你想了解这些模型分类背后的理论和图示,请参见: