翻译你的第一页¶
本教程会带你走完 Koharu 处理单张漫画页的标准流程:导入、检测、识别、翻译、复查与导出。
开始前准备¶
- 从最新 GitHub 发行版安装 Koharu
- 准备一张清晰的页面图像,格式为
.png、.jpg、.jpeg或.webp - 确认你的机器有足够的本地 VRAM / RAM 来运行目标模型,或者计划使用远程提供商
如果你还没有安装,请先看 安装 Koharu。
1. 启动 Koharu¶
正常打开桌面应用。
首次运行时,Koharu 可能会先初始化本地运行时包并下载默认视觉栈。这属于预期行为,通常每台机器或每次运行时更新只会发生一次。
2. 导入页面¶
把页面图像导入应用。
当前文档记录的导入方式是基于图像而不是项目文件。如果你导入的是文件夹而不是单个文件,Koharu 会递归筛选出受支持的图像文件。
第一次尝试时,建议先用一张干净的页面,这样更容易判断:
- 文本检测质量
- OCR 质量
- 翻译质量
- 气泡内最终排版效果
3. 检测文本并执行 OCR¶
使用 Koharu 内置的视觉流水线来:
- 检测类似文本的版面区域
- 构建用于清理的分割掩码
- 估计字体与颜色提示
- 用 OCR 识别原文
在内部实现上,Koharu 并不是直接对整页做 OCR。它会先创建文本块,裁剪这些区域,然后再对裁剪结果做 OCR。
完成检测和 OCR 后,最好在翻译前先复查页面。重点看:
- 有没有漏掉的气泡或说明文字
- 有没有重复或位置明显错误的文本块
- 有没有显而易见的 OCR 错误
- 哪些纵排文本应该保持纵排
先修正结构性问题,通常能节省后面的时间。
4. 选择翻译后端¶
你可以选择:
- 使用本地 GGUF 模型,让所有东西都留在本机
- 使用远程提供商,避免下载本地模型或承受较重的本地推理负担
Koharu 可以接入 OpenAI、Gemini、Claude、DeepSeek,以及 LM Studio、OpenRouter 这类 OpenAI 兼容接口。
如果你要接入 LM Studio、OpenRouter 或其他 OpenAI 风格端点,请参考 使用 OpenAI 兼容 API。
在实践中:
- 本地模型更适合重视隐私和离线使用的场景
- 远程模型更适合内存紧张的机器
- 当你使用远程提供商时,Koharu 发送的是 OCR 文本,而不是整页图像
5. 翻译并复查¶
运行翻译后,仔细检查结果。
Koharu 可以帮助处理文本排版和纵排 CJK 渲染,但最终页面仍然需要人工复查。重点关注:
- 人名与术语
- 语气和角色说话风格
- 换行与气泡适配
- 字体选择与描边可读性
- OCR 看起来不太可信的文本块
如果译文内容本身没问题,但版面显得过于拥挤,导出前先调整文本块或样式。
6. 导出结果¶
当页面看起来没问题后,按照你的后续工作方式选择导出格式:
- 渲染图:适合扁平化的最终页面
- PSD:适合保留可编辑文本和辅助图层
当页面已经完成时,渲染图最合适。若你还想:
- 微调措辞
- 手工修补残留瑕疵
- 隐藏或检查辅助图层
- 在 Photoshop 中继续完稿
那么 PSD 更适合。
7. 如果第一次结果还不够好¶
常见的修正方法包括:
- 在调整页面选择或替换坏文本块后重新执行检测
- 手动修正 OCR 或译文文本
- 换用更强的翻译模型
- 导出 PSD,再手工完成最终字稿与清理
把 Koharu 当成一条快速首轮处理管线会更合适,真正需要讲究的页面再用人工复查补上。