模型与提供商¶
Koharu 同时使用视觉模型和语言模型。视觉栈负责准备页面,语言栈负责翻译文本。
如果你想从架构层面理解这些部分如何组合,请在阅读本页后继续看 技术深潜。
视觉模型¶
Koharu 会在首次使用时自动下载所需的视觉模型。
默认栈包括:
- PP-DocLayoutV3:文本检测与版面分析
- comic-text-detector:文本分割
- PaddleOCR-VL-1.5:OCR 文本识别
- lama-manga:图像修复
- YuzuMarker.FontDetection:字体与颜色检测
为兼容 Rust 运行时并获得更好的性能,转换后的模型权重以 safetensors 格式托管在 Hugging Face 上。
每个视觉模型是什么¶
| 模型 | 模型类型 | Koharu 使用它的原因 |
|---|---|---|
PP-DocLayoutV3 |
版面检测器 | 找出文本类区域与阅读顺序 |
comic-text-detector |
分割网络 | 生成清理用的文本掩码 |
PaddleOCR-VL-1.5 |
视觉语言模型 | 把裁剪图像读成文本 token |
lama-manga |
修复网络 | 在去字后重建底图 |
YuzuMarker.FontDetection |
分类 / 回归模型 | 为渲染估计字体与风格提示 |
最重要的设计点是:Koharu 不会用一个模型硬扛所有页面任务。版面、分割、OCR 和修复需要完全不同的输出形式:
- 版面要区域与顺序
- 分割要逐像素掩码
- OCR 要文本
- 修复要恢复后的像素
本地 LLM¶
Koharu 通过 llama.cpp 支持本地 GGUF 模型。这些模型运行在你的机器上,并在你从 LLM 选择器里选择它们时按需下载。
在实践中,这些本地模型通常是量化后的 decoder-only transformer。GGUF 是文件格式,llama.cpp 是推理运行时。
面向英文输出的建议本地模型¶
- vntl-llama3-8b-v2:Q8_0 约 8.5 GB,更适合追求翻译质量
- lfm2-350m-enjp-mt:体积很小,适合低内存机器或快速预览
面向中文输出的建议本地模型¶
- sakura-galtransl-7b-v3.7:在 8 GB 级别显卡上兼顾质量与速度
- sakura-1.5b-qwen2.5-v1.0:更轻、更快,适合中端显卡或偏 CPU 的环境
面向更广泛语言覆盖的建议模型¶
- hunyuan-7b-mt-v1.0:一款多语言模型,对硬件要求适中
远程提供商¶
Koharu 也可以通过远程或自托管 API 翻译,而不下载本地模型。
支持的提供商包括:
- OpenAI
- Gemini
- Claude
- DeepSeek
- OpenAI 兼容 API,例如 LM Studio、OpenRouter,或任何暴露
/v1/models与/v1/chat/completions的端点
远程提供商在 Settings > API Keys 中配置。
如果你需要 LM Studio、OpenRouter 或类似端点的逐步配置说明,请参见 使用 OpenAI 兼容 API。
如何在本地与远程之间选择¶
以下情况更适合本地模型:
- 你更在意隐私
- 下载完成后希望离线运行
- 你想精细控制本机硬件使用
以下情况更适合远程提供商:
- 你不想下载体积很大的本地模型
- 你想减少本地 VRAM 或 RAM 占用
- 你已经有托管或自管的模型服务
Note
使用远程提供商时,Koharu 会把 OCR 提取出的待翻译文本发送到你配置的服务端。
延伸阅读¶
如果你想了解这些模型分类背后的理论和图示,请参见: