Modelos e Provedores¶

O Koharu usa tanto modelos de visão quanto modelos de linguagem. O stack de visão prepara a página; o stack de linguagem lida com a tradução.

Se você quer a visão ao nível arquitetural de como essas peças se encaixam, leia Mergulho Técnico Profundo depois desta página.

Modelos de visão¶

O Koharu baixa automaticamente os modelos de visão necessários na primeira vez que você os usa.

O stack padrão atual inclui:

comic-text-bubble-detector para detecção conjunta de blocos de texto e balões de fala
comic-text-detector para máscaras de segmentação de texto
PaddleOCR-VL-1.5 para reconhecimento de texto por OCR
aot-inpainting para o inpainting padrão
YuzuMarker.FontDetection para detecção de fonte e cor

Alguns modelos são usados diretamente dos repositórios upstream do Hugging Face, enquanto os pesos convertidos em safetensors são hospedados no Hugging Face quando o Koharu precisa de um pacote amigável para Rust.

O que é cada modelo de visão¶

Modelo	Tipo de modelo	Por que o Koharu o usa
`comic-text-bubble-detector`	detector de objetos	encontra blocos de texto e regiões de balão de fala em uma única passagem
`comic-text-detector`	rede de segmentação	produz uma máscara de texto para limpeza
`PaddleOCR-VL-1.5`	modelo de linguagem visual	lê texto recortado em tokens de texto
`aot-inpainting`	rede de inpainting	reconstrói regiões de imagem mascaradas após a remoção do texto
`YuzuMarker.FontDetection`	classificador / regressor	estima dicas de fonte e estilo para a renderização

A escolha de design importante é que o Koharu não usa um modelo para cada tarefa de página. Detecção, segmentação, OCR e inpainting precisam de formatos de saída diferentes:

a detecção conjunta quer blocos de texto e regiões de balão
a segmentação quer máscaras por pixel
o OCR quer texto
o inpainting quer pixels restaurados

Alternativas internas opcionais¶

Você pode trocar estágios individuais em Configurações > Engines. As alternativas internas incluem:

PP-DocLayoutV3 como detector alternativo e engine de análise de layout
speech-bubble-segmentation como detector dedicado de balões
Manga OCR e MIT 48px OCR como engines de OCR alternativos
FLUX.2 Klein 4B como inpainter opcional baseado em FLUX.2
lama-manga como inpainter alternativo

LLMs locais¶

O Koharu suporta modelos GGUF locais através do llama.cpp. Esses modelos rodam na sua máquina e são baixados sob demanda quando você os seleciona no seletor de LLM.

Na prática, os modelos locais geralmente são transformers decoder-only quantizados. GGUF é o formato do modelo; llama.cpp é o runtime de inferência.

Modelos locais internos focados em tradução para saída em inglês¶

vntl-llama3-8b-v2: um GGUF Q5_K_M, melhor quando a qualidade da tradução importa mais
lfm2.5-1.2b-instruct: uma opção menor multilíngue do tipo instruct para sistemas com pouca memória ou iteração mais rápida
sugoi-14b-ultra e sugoi-32b-ultra: escolhas maiores orientadas para tradução quando você quer mais folga

Modelos locais internos focados em tradução para saída em chinês¶

sakura-galtransl-7b-v3.7: uma escolha balanceada entre qualidade e velocidade em GPUs da classe de 8 GB
sakura-1.5b-qwen2.5-v1.0: uma opção mais leve para configurações de médio porte ou com uso intenso de CPU

Modelo local interno focado em tradução para cobertura de idiomas mais ampla¶

hunyuan-mt-7b: uma opção multi-idioma com requisitos moderados de hardware

Outras famílias de modelos locais internos¶

O seletor local também inclui famílias de propósito geral que não são específicas para tradução:

Gemma 4 instruct: gemma4-e2b-it, gemma4-e4b-it, gemma4-26b-a4b-it, gemma4-31b-it
Gemma 4 uncensored: gemma4-e2b-uncensored, gemma4-e4b-uncensored
Qwen 3.5: qwen3.5-0.8b, qwen3.5-2b, qwen3.5-4b, qwen3.5-9b, qwen3.5-27b, qwen3.5-35b-a3b
Qwen 3.5 uncensored: qwen3.5-2b-uncensored, qwen3.5-4b-uncensored, qwen3.5-9b-uncensored, qwen3.5-27b-uncensored, qwen3.5-35b-a3b-uncensored
Qwen 3.6: qwen3.6-27b, qwen3.6-35b-a3b
Qwen 3.6 uncensored: qwen3.6-27b-uncensored, qwen3.6-35b-a3b-uncensored

Provedores remotos¶

O Koharu também pode traduzir através de APIs remotas ou auto-hospedadas em vez de baixar um modelo local.

As famílias de provedores suportados são:

baseados em LLM: OpenAI, Gemini, Claude, DeepSeek, mais qualquer endpoint OpenAI-compatible que exponha /v1/models e /v1/chat/completions (LM Studio, OpenRouter, vLLM, etc.)
tradução automática: DeepL, Google Cloud Translation, Caiyun

Provedores de tradução automática são serviços de tradução puros, não modelos de chat. Eles recebem o texto fonte e um idioma de destino e devolvem uma tradução; não há system prompt nem seletor de modelo.

Modelos remotos de LLM internos atuais¶

O catálogo interno dos provedores baseados em LLM inclui:

OpenAI: GPT-5.5, GPT-5.4, GPT-5.x, GPT-4.1, série o, GPT-4o e modelos GPT chat legados
Gemini: modelos de saída de texto Gemini 3.1, Gemini 3, Gemini 2.5 e Gemini 2.0, além do Gemma 4 hospedado pela Gemini API
Claude: modelos Claude Opus, Sonnet e Haiku 4.x atuais, além de snapshots Claude 4 obsoletos que continuam disponíveis até as datas de desativação upstream
DeepSeek: DeepSeek V4 Flash, DeepSeek V4 Pro e os aliases de compatibilidade deepseek-chat / deepseek-reasoner
APIs compatíveis com OpenAI: os modelos são descobertos dinamicamente a partir do endpoint configurado

Provedores de tradução automática¶

Provedor	O que você precisa	Notas
`DeepL`	Chave de API do DeepL	Base URL customizada opcional para os endpoints do DeepL Pro vs. Free
`Google Cloud Translation`	Chave de API do Google Cloud	Usa o endpoint REST v2
`Caiyun`	Token do Caiyun	Cobertura limitada de idiomas de destino

Os provedores remotos são configurados em Configurações > Chaves de API.

Para um guia passo a passo de configuração para LM Studio, OpenRouter e endpoints similares, veja Usar APIs Compatíveis com OpenAI.

Geração de imagem com Codex¶

O Koharu também pode usar o Codex para geração image-to-image de ponta a ponta. Em vez de traduzir blocos de texto e renderizar texto localmente como etapas separadas, esse fluxo envia a imagem de página de origem e o prompt ao Codex e recebe uma imagem de página gerada.

Esse é um fluxo remoto de geração de imagem, não um modelo local. Ele exige uma conta ChatGPT com acesso ao Codex e autenticação de dois fatores habilitada para concluir o login por código de dispositivo. Consulte Usar Geração de Imagem com Codex para notas de uso e limitações.

Escolhendo entre local e remoto¶

Use modelos locais quando você quer:

a configuração mais privada
operação offline após a conclusão dos downloads
maior controle sobre o uso de hardware

Use provedores remotos quando você quer:

evitar downloads grandes de modelos locais
reduzir o uso local de VRAM ou RAM
conectar-se a um serviço de modelos hospedado ou auto-gerenciado

Note

Quando você usa um provedor remoto, o Koharu envia o texto do OCR selecionado para tradução ao provedor que você configurou.

Leitura de fundo¶

Para a teoria de fundo por trás das categorias de modelos desta página, veja: