模型与提供商¶

Koharu 同时使用视觉模型和语言模型。视觉栈负责准备页面，语言栈负责翻译文本。

如果你想从架构层面理解这些部分如何组合，请在阅读本页后继续看技术深潜。

视觉模型¶

Koharu 会在首次使用时自动下载所需的视觉模型。

默认栈包括：

为兼容 Rust 运行时并获得更好的性能，转换后的模型权重以 safetensors 格式托管在 Hugging Face 上。

最重要的设计点是：Koharu 不会用一个模型硬扛所有页面任务。版面、分割、OCR 和修复需要完全不同的输出形式：

Koharu 通过 llama.cpp 支持本地 GGUF 模型。这些模型运行在你的机器上，并在你从 LLM 选择器里选择它们时按需下载。

在实践中，这些本地模型通常是量化后的 decoder-only transformer。GGUF 是文件格式，llama.cpp 是推理运行时。

Koharu 也可以通过远程或自托管 API 翻译，而不下载本地模型。

支持的提供商包括：

OpenAI
Gemini
Claude
DeepSeek
OpenAI 兼容 API，例如 LM Studio、OpenRouter，或任何暴露 /v1/models 与 /v1/chat/completions 的端点

远程提供商在 Settings > API Keys 中配置。

如果你需要 LM Studio、OpenRouter 或类似端点的逐步配置说明，请参见使用 OpenAI 兼容 API。

以下情况更适合本地模型：

以下情况更适合远程提供商：

Note

使用远程提供商时，Koharu 会把 OCR 提取出的待翻译文本发送到你配置的服务端。

如果你想了解这些模型分类背后的理论和图示，请参见：