UTF-8 vs Latin-1 — qual usar?

UTF-8 para projectos novos; Latin-1 apenas por compatibilidade legacy.

Corrige ficheiros automaticamente?

Converte texto colado; para ficheiros binários grandes usa ferramentas dedicadas.

Conversor de Encoding — gerador.site

Encoding de caracteres define como bytes representam texto. UTF-8 domina a web moderna; ISO-8859-1 (Latin-1) e Windows-1252 persistem em sistemas legacy, ficheiros CSV europeus antigos e emails mal configurados. Conversão incorrecta produz «mojibake» (Ã© em vez de é).

TextEncoder e TextDecoder do browser convertem entre UTF-8, ISO-8859-1 e Windows-1252 client-side, mostrando resultado e alertando perdas quando caracteres não existem no charset destino. Essencial ao resgatar ficheiros de ERPs portugueses ou imports brasileiros históricos.

Developers, analistas de dados e jornalistas de dados corrigen exports corrompidos sem instalar iconv localmente.

Exports CSV de ERPs portugueses antigos em Windows-1252 abertos como UTF-8 produzem mojibake clássico — conversão explícita recupera texto. Latin-1 não representa todos os caracteres Unicode; caracteres fora do charset podem perder-se — revisa output crítico manualmente.

Jornalistas e investigadores recuperam texto legível de ficheiros obtidos via FOIA com encoding incorrecto declarado.

Migrações de conteúdo CMS antigo em Latin-1 para UTF-8 moderno passam por conversão explícita antes de import.

Bases de dados legadas exportadas em Latin-1 convertem-se para UTF-8 antes de indexação em Elasticsearch.

Guarda backup antes de conversões em massa irreversíveis que possam afectar ficheiros de produção importados.

**Aviso:** conversão lossy remove caracteres não representáveis — revisa output crítico.

Conversor de Encoding

Como funciona

Perguntas frequentes