跳转至

翻译你的第一页

本教程会带你走完 Koharu 处理单张漫画页的标准流程:导入、检测、识别、翻译、复查与导出。

开始前准备

  • 从最新 GitHub 发行版安装 Koharu
  • 准备一张清晰的页面图像,格式为 .png.jpg.jpeg.webp
  • 确认你的机器有足够的本地 VRAM / RAM 来运行目标模型,或者计划使用远程提供商

如果你还没有安装,请先看 安装 Koharu

1. 启动 Koharu

正常打开桌面应用。

首次运行时,Koharu 可能会先初始化本地运行时包并下载默认视觉栈。这属于预期行为,通常每台机器或每次运行时更新只会发生一次。

2. 导入页面

把页面图像导入应用。

当前文档记录的导入方式是基于图像而不是项目文件。如果你导入的是文件夹而不是单个文件,Koharu 会递归筛选出受支持的图像文件。

第一次尝试时,建议先用一张干净的页面,这样更容易判断:

  • 文本检测质量
  • OCR 质量
  • 翻译质量
  • 气泡内最终排版效果

3. 检测文本并执行 OCR

使用 Koharu 内置的视觉流水线来:

  • 检测类似文本的版面区域
  • 构建用于清理的分割掩码
  • 估计字体与颜色提示
  • 用 OCR 识别原文

在内部实现上,Koharu 并不是直接对整页做 OCR。它会先创建文本块,裁剪这些区域,然后再对裁剪结果做 OCR。

完成检测和 OCR 后,最好在翻译前先复查页面。重点看:

  • 有没有漏掉的气泡或说明文字
  • 有没有重复或位置明显错误的文本块
  • 有没有显而易见的 OCR 错误
  • 哪些纵排文本应该保持纵排

先修正结构性问题,通常能节省后面的时间。

4. 选择翻译后端

你可以选择:

  • 使用本地 GGUF 模型,让所有东西都留在本机
  • 使用远程提供商,避免下载本地模型或承受较重的本地推理负担

Koharu 可以接入 OpenAI、Gemini、Claude、DeepSeek,以及 LM Studio、OpenRouter 这类 OpenAI 兼容接口。

如果你要接入 LM Studio、OpenRouter 或其他 OpenAI 风格端点,请参考 使用 OpenAI 兼容 API

在实践中:

  • 本地模型更适合重视隐私和离线使用的场景
  • 远程模型更适合内存紧张的机器
  • 当你使用远程提供商时,Koharu 发送的是 OCR 文本,而不是整页图像

5. 翻译并复查

运行翻译后,仔细检查结果。

Koharu 可以帮助处理文本排版和纵排 CJK 渲染,但最终页面仍然需要人工复查。重点关注:

  • 人名与术语
  • 语气和角色说话风格
  • 换行与气泡适配
  • 字体选择与描边可读性
  • OCR 看起来不太可信的文本块

如果译文内容本身没问题,但版面显得过于拥挤,导出前先调整文本块或样式。

6. 导出结果

当页面看起来没问题后,按照你的后续工作方式选择导出格式:

  • 渲染图:适合扁平化的最终页面
  • PSD:适合保留可编辑文本和辅助图层

当页面已经完成时,渲染图最合适。若你还想:

  • 微调措辞
  • 手工修补残留瑕疵
  • 隐藏或检查辅助图层
  • 在 Photoshop 中继续完稿

那么 PSD 更适合。

7. 如果第一次结果还不够好

常见的修正方法包括:

  • 在调整页面选择或替换坏文本块后重新执行检测
  • 手动修正 OCR 或译文文本
  • 换用更强的翻译模型
  • 导出 PSD,再手工完成最终字稿与清理

把 Koharu 当成一条快速首轮处理管线会更合适,真正需要讲究的页面再用人工复查补上。

下一步