跳转至

模型与提供商

Koharu 同时使用视觉模型和语言模型。视觉栈负责准备页面,语言栈负责翻译文本。

如果你想从架构层面理解这些部分如何组合,请在阅读本页后继续看 技术深潜

视觉模型

Koharu 会在首次使用时自动下载所需的视觉模型。

默认栈包括:

为兼容 Rust 运行时并获得更好的性能,转换后的模型权重以 safetensors 格式托管在 Hugging Face 上。

每个视觉模型是什么

模型 模型类型 Koharu 使用它的原因
PP-DocLayoutV3 版面检测器 找出文本类区域与阅读顺序
comic-text-detector 分割网络 生成清理用的文本掩码
PaddleOCR-VL-1.5 视觉语言模型 把裁剪图像读成文本 token
lama-manga 修复网络 在去字后重建底图
YuzuMarker.FontDetection 分类 / 回归模型 为渲染估计字体与风格提示

最重要的设计点是:Koharu 不会用一个模型硬扛所有页面任务。版面、分割、OCR 和修复需要完全不同的输出形式:

  • 版面要区域与顺序
  • 分割要逐像素掩码
  • OCR 要文本
  • 修复要恢复后的像素

本地 LLM

Koharu 通过 llama.cpp 支持本地 GGUF 模型。这些模型运行在你的机器上,并在你从 LLM 选择器里选择它们时按需下载。

在实践中,这些本地模型通常是量化后的 decoder-only transformer。GGUF 是文件格式,llama.cpp 是推理运行时。

面向英文输出的建议本地模型

面向中文输出的建议本地模型

面向更广泛语言覆盖的建议模型

远程提供商

Koharu 也可以通过远程或自托管 API 翻译,而不下载本地模型。

支持的提供商包括:

  • OpenAI
  • Gemini
  • Claude
  • DeepSeek
  • OpenAI 兼容 API,例如 LM Studio、OpenRouter,或任何暴露 /v1/models/v1/chat/completions 的端点

远程提供商在 Settings > API Keys 中配置。

如果你需要 LM Studio、OpenRouter 或类似端点的逐步配置说明,请参见 使用 OpenAI 兼容 API

如何在本地与远程之间选择

以下情况更适合本地模型:

  • 你更在意隐私
  • 下载完成后希望离线运行
  • 你想精细控制本机硬件使用

以下情况更适合远程提供商:

  • 你不想下载体积很大的本地模型
  • 你想减少本地 VRAM 或 RAM 占用
  • 你已经有托管或自管的模型服务

Note

使用远程提供商时,Koharu 会把 OCR 提取出的待翻译文本发送到你配置的服务端。

延伸阅读

如果你想了解这些模型分类背后的理论和图示,请参见: