Ir para o conteúdo

Modelos e Provedores

O Koharu usa tanto modelos de visão quanto modelos de linguagem. O stack de visão prepara a página; o stack de linguagem lida com a tradução.

Se você quer a visão ao nível arquitetural de como essas peças se encaixam, leia Mergulho Técnico Profundo depois desta página.

Modelos de visão

O Koharu baixa automaticamente os modelos de visão necessários na primeira vez que você os usa.

O stack padrão atual inclui:

Alguns modelos são usados diretamente dos repositórios upstream do Hugging Face, enquanto os pesos convertidos em safetensors são hospedados no Hugging Face quando o Koharu precisa de um pacote amigável para Rust.

O que é cada modelo de visão

Modelo Tipo de modelo Por que o Koharu o usa
comic-text-bubble-detector detector de objetos encontra blocos de texto e regiões de balão de fala em uma única passagem
comic-text-detector rede de segmentação produz uma máscara de texto para limpeza
PaddleOCR-VL-1.5 modelo de linguagem visual lê texto recortado em tokens de texto
aot-inpainting rede de inpainting reconstrói regiões de imagem mascaradas após a remoção do texto
YuzuMarker.FontDetection classificador / regressor estima dicas de fonte e estilo para a renderização

A escolha de design importante é que o Koharu não usa um modelo para cada tarefa de página. Detecção, segmentação, OCR e inpainting precisam de formatos de saída diferentes:

  • a detecção conjunta quer blocos de texto e regiões de balão
  • a segmentação quer máscaras por pixel
  • o OCR quer texto
  • o inpainting quer pixels restaurados

Alternativas internas opcionais

Você pode trocar estágios individuais em Configurações > Engines. As alternativas internas incluem:

LLMs locais

O Koharu suporta modelos GGUF locais através do llama.cpp. Esses modelos rodam na sua máquina e são baixados sob demanda quando você os seleciona no seletor de LLM.

Na prática, os modelos locais geralmente são transformers decoder-only quantizados. GGUF é o formato do modelo; llama.cpp é o runtime de inferência.

Modelos locais internos focados em tradução para saída em inglês

Modelos locais internos focados em tradução para saída em chinês

Modelo local interno focado em tradução para cobertura de idiomas mais ampla

  • hunyuan-mt-7b: uma opção multi-idioma com requisitos moderados de hardware

Outras famílias de modelos locais internos

O seletor local também inclui famílias de propósito geral que não são específicas para tradução:

  • Gemma 4 instruct: gemma4-e2b-it, gemma4-e4b-it, gemma4-26b-a4b-it, gemma4-31b-it
  • Gemma 4 uncensored: gemma4-e2b-uncensored, gemma4-e4b-uncensored
  • Qwen 3.5: qwen3.5-0.8b, qwen3.5-2b, qwen3.5-4b, qwen3.5-9b, qwen3.5-27b, qwen3.5-35b-a3b
  • Qwen 3.5 uncensored: qwen3.5-2b-uncensored, qwen3.5-4b-uncensored, qwen3.5-9b-uncensored, qwen3.5-27b-uncensored, qwen3.5-35b-a3b-uncensored
  • Qwen 3.6: qwen3.6-27b, qwen3.6-35b-a3b
  • Qwen 3.6 uncensored: qwen3.6-27b-uncensored, qwen3.6-35b-a3b-uncensored

Provedores remotos

O Koharu também pode traduzir através de APIs remotas ou auto-hospedadas em vez de baixar um modelo local.

As famílias de provedores suportados são:

  • baseados em LLM: OpenAI, Gemini, Claude, DeepSeek, mais qualquer endpoint OpenAI-compatible que exponha /v1/models e /v1/chat/completions (LM Studio, OpenRouter, vLLM, etc.)
  • tradução automática: DeepL, Google Cloud Translation, Caiyun

Provedores de tradução automática são serviços de tradução puros, não modelos de chat. Eles recebem o texto fonte e um idioma de destino e devolvem uma tradução; não há system prompt nem seletor de modelo.

Modelos remotos de LLM internos atuais

O catálogo interno dos provedores baseados em LLM inclui:

  • OpenAI: GPT-5.5, GPT-5.4, GPT-5.x, GPT-4.1, série o, GPT-4o e modelos GPT chat legados
  • Gemini: modelos de saída de texto Gemini 3.1, Gemini 3, Gemini 2.5 e Gemini 2.0, além do Gemma 4 hospedado pela Gemini API
  • Claude: modelos Claude Opus, Sonnet e Haiku 4.x atuais, além de snapshots Claude 4 obsoletos que continuam disponíveis até as datas de desativação upstream
  • DeepSeek: DeepSeek V4 Flash, DeepSeek V4 Pro e os aliases de compatibilidade deepseek-chat / deepseek-reasoner
  • APIs compatíveis com OpenAI: os modelos são descobertos dinamicamente a partir do endpoint configurado

Provedores de tradução automática

Provedor O que você precisa Notas
DeepL Chave de API do DeepL Base URL customizada opcional para os endpoints do DeepL Pro vs. Free
Google Cloud Translation Chave de API do Google Cloud Usa o endpoint REST v2
Caiyun Token do Caiyun Cobertura limitada de idiomas de destino

Os provedores remotos são configurados em Configurações > Chaves de API.

Para um guia passo a passo de configuração para LM Studio, OpenRouter e endpoints similares, veja Usar APIs Compatíveis com OpenAI.

Geração de imagem com Codex

O Koharu também pode usar o Codex para geração image-to-image de ponta a ponta. Em vez de traduzir blocos de texto e renderizar texto localmente como etapas separadas, esse fluxo envia a imagem de página de origem e o prompt ao Codex e recebe uma imagem de página gerada.

Esse é um fluxo remoto de geração de imagem, não um modelo local. Ele exige uma conta ChatGPT com acesso ao Codex e autenticação de dois fatores habilitada para concluir o login por código de dispositivo. Consulte Usar Geração de Imagem com Codex para notas de uso e limitações.

Escolhendo entre local e remoto

Use modelos locais quando você quer:

  • a configuração mais privada
  • operação offline após a conclusão dos downloads
  • maior controle sobre o uso de hardware

Use provedores remotos quando você quer:

  • evitar downloads grandes de modelos locais
  • reduzir o uso local de VRAM ou RAM
  • conectar-se a um serviço de modelos hospedado ou auto-gerenciado

Note

Quando você usa um provedor remoto, o Koharu envia o texto do OCR selecionado para tradução ao provedor que você configurou.

Leitura de fundo

Para a teoria de fundo por trás das categorias de modelos desta página, veja: