Mojibake


mojibake (japonês: 文字 化け ; iPA: [Mod͡ʑibake] , " Transformação do caractere ") é o texto ilegal ou sem sentido que é o resultado do texto sendo decodificado usando uma codificação de caracteres não intencionais. O resultado é uma substituição sistemática de símbolos por outros completamente não relacionados, geralmente de um sistema de escrita diferente.
Esta tela pode incluir o caractere de substituição genérica (" � 34;) em locais onde a representação binária é considerada inválida. Uma substituição também pode envolver vários símbolos consecutivos, como visto em uma codificação, quando o mesmo código binário constitui um símbolo na outra codificação. Isso ocorre devido à codificação de comprimento constante diferente (como nas codificações asiáticas de 16 bits versus codificações européias de 8 bits) ou o uso de codificações de comprimento variável (principalmente UTF-8 e UTF-16).
A falha na renderização dos glifos devido a fontes ausentes ou a falta de glifos em uma fonte é um problema diferente que não deve ser confundido com Mojibake. Os sintomas dessa renderização falhada incluem blocos com o ponto de código exibido em hexadecimal ou usando o caractere de substituição genérica. É importante ressaltar que essas substituições são válidas e são o resultado do tratamento de erros correto pelo software.
Causas
Para reproduzir corretamente o texto original que foi codificado, a correspondência entre os dados codificados e a noção de codificação deve ser preservada (ou seja, os padrões de codificação de origem e destino devem ser os mesmos). Como o Mojibake é o exemplo de não conformidade entre eles, ele pode ser alcançado manipulando os dados em si ou apenas relacionando-os.
Mojibake é frequentemente visto com dados de texto que foram marcados com uma codificação errada; Pode nem ser marcado, mas movido entre computadores com diferentes codificações padrão. Uma importante fonte de problema são os protocolos de comunicação que dependem de configurações em cada computador, em vez de enviar ou armazenar metadados juntamente com os dados.
As diferentes configurações padrão entre os computadores são em parte devido a diferentes implantações do Unicode entre as famílias de sistemas operacionais e em parte as codificações do Legacy ' Especializações para diferentes sistemas de escrita de idiomas humanos. Enquanto as distribuições do Linux foram alteradas principalmente para o UTF-8 em 2004, o Microsoft Windows geralmente usa o UTF-16 e, às vezes, usa páginas de código de 8 bits para arquivos de texto em diferentes linguagens.
Para alguns sistemas de escrita, como japoneses, várias codificações foram historicamente empregadas, fazendo com que os usuários vejam Mojibake com relativa frequência. Como exemplo, a palavra mojibake (" 文字 化け 化け 化け 化け 化け#34;) armazenada como euc-jp pode ser exibida incorretamente como " ハクサ � ス 、 ア ア ア ア ア " , " ハクサ嵂ス ア ア " (MS-932), ou " ハクサ郾ス ア ア " se interpretado como shift-jis, ou como " ê¸ »Ú² ½ ± " No software que assume que o texto esteja nas codificações Windows-1252 ou ISO 8859-1, geralmente rotuladas ocidental ou europeu ocidental . Isso é ainda exacerbado se outros locais estiverem envolvidos: o mesmo texto armazenado que o UTF-8 aparece como " 譁 � 蟄怜喧縺 � " se interpretado como shift-jis, como " æ-‡ Å-Åœ-–#34; se interpretado como ocidental, ou (por exemplo) como " 鏂囧 瓧 栥亼 栥亼 栥亼 " se interpretado como estando em um local de GBK (China continental).
| Texto original | 文 | 字 | ? | け | ||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| bytes brutos de codificação EUC-JP | CA | B8 | BB | FA | B2 | BD | A4 | B1 | ||||||||||||||||
| EUC-JP bytes interpretado como Shift-JIS | ? | ? | - Sim. | 郾 | PRESIDÊNCIA | 、 | ア | |||||||||||||||||
| bytes EUC-JP interpretados como GBK | 矢 | Efeitos | 步 | け | ||||||||||||||||||||
| bytes EUC-JP interpretados como Windows-1252 | ? | ? | » | ? | 2 | 1⁄2 | ¤ | ± | ||||||||||||||||
| bytes brutos de codificação UTF-8 | E6 | 96 | 87 | E5 | ANÚNCIO | 97 | E5 | 8C | 96 | E3 | 81 | 91 | ||||||||||||
| bytes UTF-8 interpretados como Shift-JIS | 譁 | 蟄 | 怜 | 喧 | 縺 | |||||||||||||||||||
| bytes UTF-8 interpretados como GBK | 鏂 | 囧 | 瓧 | 鍖 | 栥 | 亼 | ||||||||||||||||||
| bytes UTF-8 interpretados como Windows-1252 | æ | – | ‡ | å | SHIELD | — | å | ? | – | ? | HOP | ' | ||||||||||||
Subespecífica
Se a codificação não for especificada, cabe ao software decidir por outros meios. Dependendo do tipo de software, a solução típica é a configuração ou as heurísticas de detecção de charset. Ambos são propensos a erradamente.
A codificação dos arquivos de texto é afetada pela configuração de localidade, que depende da linguagem do usuário, marca de sistema operacional e muitas outras condições. Portanto, a codificação assumida está sistematicamente errada para arquivos provenientes de um computador com uma configuração diferente, ou mesmo de um software localizado diferente no mesmo sistema. Para o Unicode, uma solução é usar uma marca de pedidos de bytes, mas para o código -fonte e outro texto legível por máquina, muitos analisadores não toleram isso. Outro está armazenando a codificação como metadados no sistema de arquivos. Os sistemas de arquivos que suportam atributos de arquivo estendidos podem armazenar isso como user.charset . Isso também requer suporte em software que deseja tirar proveito dele, mas não perturba outro software.
Embora algumas codificações sejam fáceis de detectar, como o UTF-8, há muitos que são difíceis de distinguir (consulte a detecção de charset). Um navegador da Web pode não ser capaz de distinguir uma página codificada no EUC-JP e outra em Shift-Jis se a codificação não for atribuída explicitamente usando cabeçalhos HTTP enviados junto com os documentos ou usando os meta tags do documento HTML que tags que tam são usados para substituir os cabeçalhos HTTP ausentes se o servidor não puder ser configurado para enviar os cabeçalhos HTTP adequados; Veja as codificações do personagem em HTML.
Especificação errada
Mojibake também ocorre quando a codificação é especificada incorretamente. Isso geralmente acontece entre as codificações semelhantes. Por exemplo, o Eudora Email Client para Windows era conhecido por enviar e-mails rotulados como ISO 8859-1 que, na realidade, Windows-1252. O Windows-1252 contém caracteres imprimíveis extras no intervalo C1 (os mais frequentemente vistos sendo aspas curvas e traços extras), que não foram exibidos corretamente no software em conformidade com o padrão ISO; Isso afetou especialmente o software em execução em outros sistemas operacionais, como o UNIX.
Supervisão do usuário
das codificações ainda em uso comum, muitas se originaram de tomar ASCII e anexá -lo ao topo; Como resultado, essas codificações são parcialmente compatíveis entre si. Exemplos disso incluem o Windows-1252 e a ISO 8859-1. Assim, as pessoas podem confundir o conjunto de codificação expandido que eles estão usando com ASCII simples.
Sobreespecífica
Quando existem camadas de protocolos, cada uma tentando especificar a codificação com base em informações diferentes, as menos informações podem ser enganosas para o destinatário. Por exemplo, considere um servidor da web que serve um arquivo HTML estático sobre HTTP. O conjunto de personagens pode ser comunicado ao cliente de várias maneiras:
- no cabeçalho HTTP. Essas informações podem ser baseadas na configuração do servidor (por exemplo, ao servir um arquivo fora do disco) ou controladas pelo aplicativo em execução no servidor (para sites dinâmicos).
- no arquivo, como uma meta tag HTML (
http-equivoucharset) ou oencodingatributo de uma declaração XML. Esta é a codificação que o autor queria salvar o arquivo em particular. - no arquivo, como uma marca de ordem byte. Esta é a codificação que o editor do autor realmente salvou-o. A menos que uma conversão acidental de codificação tenha acontecido (abrindo-a em uma codificação e salvando-a em outra), isso será correto. É, no entanto, apenas disponível em codificações Unicode, como UTF-8 ou UTF-16.
Falta de suporte de hardware ou software
O hardware muito mais antigo é normalmente projetado para suportar apenas um conjunto de caracteres e o conjunto de caracteres normalmente não pode ser alterado. A tabela de caracteres contida no firmware de exibição estará localizada para ter caracteres para o país em que o dispositivo deve ser vendido e, normalmente, a tabela difere de país para país. Como tal, esses sistemas poderão exibir mojibake ao carregar o texto gerado em um sistema de um país diferente. Da mesma forma, muitos sistemas operacionais iniciais não suportam vários formatos de codificação e, portanto, acabarão exibindo Mojibake se forem feitos para exibir texto não padrão-versões de Microsoft Windows e Palm OS, por exemplo, estão localizadas por país e apenas serão Padrões de codificação de suporte relevantes para o país em que a versão localizada será vendida e exibirá Mojibake se um arquivo que contém um texto em um formato de codificação diferente da versão que o sistema operacional for projetado para suportar for aberto.
Resolução
As aplicações usando UTF-8 como uma codificação padrão podem atingir um maior grau de interoperabilidade devido ao seu uso generalizado e compatibilidade com versões anteriores com US-ASCII. O UTF-8 também tem a capacidade de ser reconhecido diretamente por um algoritmo simples, para que o software bem escrito possa evitar misturar o UTF-8 com outras codificações.
A dificuldade de resolver uma instância de mojibake varia dependendo da aplicação em que ocorre e das causas dela. Dois dos aplicativos mais comuns nos quais o Mojibake pode ocorrer são navegadores da Web e processadores de texto. Os navegadores modernos e os processadores de texto geralmente suportam uma ampla gama de codificações de caráter. Os navegadores geralmente permitem que um usuário altere o mecanismo de renderização da configuração de codificação em tempo real, enquanto os processadores de texto permitem ao usuário selecionar a codificação apropriada ao abrir um arquivo. Pode levar alguma tentativa e erro para os usuários encontrarem a codificação correta.
O problema fica mais complicado quando ocorre em um aplicativo que normalmente não suporta uma ampla gama de codificação de caracteres, como em um jogo de computador não unicode. Nesse caso, o usuário deve alterar as configurações de codificação do sistema operacional para corresponder às do jogo. No entanto, a alteração das configurações de codificação em todo o sistema também pode causar mojibake em aplicações pré-existentes. No Windows XP ou posterior, um usuário também tem a opção de usar o Microsoft Applocale, um aplicativo que permite a alteração das configurações de localidade por aplicativo. Mesmo assim, a alteração das configurações de codificação do sistema operacional não é possível em sistemas operacionais anteriores, como o Windows 98; Para resolver esse problema nos sistemas operacionais anteriores, um usuário teria que usar aplicativos de renderização de fontes de terceiros.
Problemas em sistemas de escrita diferentes
Inglês
mojibake nos textos em inglês geralmente ocorre na pontuação, como os traços ( -), en traghes ( -) e citações encaracoladas (",", ','), mas raramente no texto do personagem, uma vez que a maioria das codificações concorda com ASCII sobre a codificação do alfabeto inglês. Por exemplo, o sinal de libra £ aparecerá como £ se for codificado pelo remetente como UTF-8, mas interpretado pelo destinatário como uma das codificações da Europa Ocidental ( CP1252 ou ISO 8859-1). Se iterado usando o CP1252, isso pode levar a £ , ã € € € ‚£ , ã ã ¢ € e assim por diante.
Da mesma forma, a cotação única certa ('), quando codificada no UTF-8 e decodificada usando o Windows-1252, torna-se â € , ¢ , Ã ¢
Nas épocas mais antigas, alguns computadores tinham codificações específicas de fornecedores que causaram incompatibilidade também para o texto em inglês. Os computadores de 8 bits da marca Commodore usaram a codificação PetSCII, particularmente notável para inverter a parte superior e inferior em comparação com o ASCII padrão. As impressoras PetScii funcionaram bem em outros computadores da época, mas inverteu o caso de todas as cartas. Os mainframes IBM usam a codificação EBCDIC que não corresponde a ASCII.
Outras línguas da Europa Ocidental
Os alfabetos das línguas norte -germânicas, catalã, romeno, finlandês, francês, alemão, italiano, português e espanhol são todas extensões do alfabeto latino. Os caracteres adicionais são tipicamente os que são corrompidos, tornando os textos apenas levemente ilegíveis com o Mojibake:
- å, ä, ö em finlandês e sueco (š e ž estão presentes em alguns empréstimos finlandeses, é marginalmente em sueco, principalmente em palavras de empréstimo)
- à, ç, è, é, ï, í, ò, ó, ú, ü em catalão
- æ, ø, å em norueguês e dinamarquês, bem como acentos agudos opcionais em é etc para a desambiguação
- , é, ó, ij, è, ë, ï em holandês
- ä, ö, ü, e ß em alemão
- , ð, í, ó, ú, ý, æ, ø em Faroese
- Na Islândia
- a, ç, è, é, ë, ê, ï, î, ô, ù, û, ü, ÿ, ÿ, æ, œ in French
- a, è, é, ì, ò, ù em italiano
- em espanhol
- à, á, â, ã, ç, é, ê, í, ó, ô, õ, ú in Portuguese (ü no longer used)
- ú em irlandês
- à, è, ì, ò, ù em gaélico escocês
- ă, î, ș, ț in Romanian
- £ em Inglês Britânico (æ e œ raramente são usados)
... e suas contrapartes maiúsculas, se aplicável.
Estes são idiomas para os quais o conjunto de caracteres ISO 8859-1 (também conhecido como Latin 1 ou Western ) está em uso. No entanto, a ISO 8859-1 foi obsoleta por dois padrões concorrentes, o Windows-1252 compatível com versões anteriores e a ISO 8859-15 ligeiramente alterada. Ambos adicionam o sinal do euro e os franceses œ, mas, caso contrário, qualquer confusão desses três conjuntos de personagens não cria mojibake nesses idiomas. Além disso, é sempre seguro interpretar a ISO 8859-1 como Windows-1252 e bastante segura interpretá-lo como ISO 8859-15, em particular em relação ao sinal do euro, que substitui o sinal de moeda raramente usado (¤). No entanto, com o advento do UTF-8, o Mojibake se tornou mais comum em certos cenários, p. Troca de arquivos de texto entre os computadores do UNIX e do Windows, devido à incompatibilidade do UTF-8 com Latin-1 e Windows-1252. Mas o UTF-8 tem a capacidade de ser reconhecido diretamente por um algoritmo simples, para que o software bem escrito deve evitar misturar o UTF-8 com outras codificações, portanto, isso era mais comum quando muitos tinham software não suportando UTF-8. A maioria desses idiomas foi suportada pelo MS-DOS Padrão CP437 e outras codificações padrão da máquina, exceto ASCII, portanto, os problemas ao comprar uma versão do sistema operacional eram menos comuns. Windows e MS-DOS não são compatíveis, no entanto.
Em vogais suecas, norueguesas, dinamarquesas e alemãs, raramente são repetidas, e geralmente é óbvio quando um personagem é corrompido, por exemplo A segunda letra na palavra sueca kärlek (" amor " ;) quando é codificado no UTF-8, mas decodificado no oeste, produzindo "kãärlek" ou für em alemão, que se torna "für " . Dessa forma, mesmo que o leitor precise adivinhar qual é a carta original, quase todos os textos permanecem legíveis. Finlandês, por outro lado, freqüentemente usa vogais repetidas em palavras como hääyö ( " noite de casamento ") que pode dificultar a leitura do texto corrompido (por exemplo, hääyö Span> aparece como como " O islandês tem dez personagens possivelmente confusos, e Faroese tem oito, tornando muitas palavras quase completamente ininteligíveis quando corrompidas (por exemplo, islandês Þjóðlöð , " Hospitalidade destacada ", aparece como como "
em alemão, Buchstabensalat (" Salada de carta " ;) é um termo comum para esse fenômeno, em espanhol, deformación (literalmente " deformação ") é usada e, em português, DesformatAção (literalmente " Deformating ") é usado.
Alguns usuários translitram sua escrita ao usar um computador, omitindo os diacríticos problemáticos ou usando substituições de diGraph (Å → Aa, ä/Æ æ → Ae, Ö/Ø → OE, ü → UE etc.). Assim, um autor pode escrever " Ueber " Em vez de "#34;"#34;, que é uma prática padrão em alemão quando os umlauts não estão disponíveis. A última prática parece ser melhor tolerada na esfera da língua alemã do que nos países nórdicos. Por exemplo, em norueguês, os digrafos estão associados a dinamarquês arcaicos e podem ser usados brincando. No entanto, os dígrafos são úteis na comunicação com outras partes do mundo. Como exemplo, o jogador de futebol norueguês Ole Gunnar Solskjær teve seu sobrenome escrito " Solskjaer " em seu uniforme quando ele jogou pelo Manchester United.
Um artefato de UTF-8 interpretado mal como ISO 8859-1, " " Sendo renderizado como "Ring Meg n ¥ ", foi visto em 2014 em um golpe de SMS direcionado à Noruega.
| Exemplo sueco | Codificação de fontes | Codificação de alvos | Resultado (Os ratos em vermelho estão incorretos.) |
|---|---|---|---|
| Smörgås (suíche aberto) | |||
| MS-DOS 437 | ISO 8859-1 | Sm?rgS | |
| UTF-8 | Sm#rg?S | ||
| IBM/CP037 (EBCDIC) | ë | ||
| Mac Roman. | SmörgåS | ||
| ISO 8859-1 | Sm,rgÂS |
O mesmo problema ocorre também em romeno, veja estes exemplos:
| Exemplo romeno | Codificação de fontes | Codificação de alvos | Resultado (Os ratos em vermelho estão incorretos.) |
|---|---|---|---|
| São Paulo (más) | |||
| UTF-8 | |||
| ASCII | CenuÈ | ||
| ISO 8859-2 | CenuÇ | ||
| OEM 737 | Cenuββ Δ | ||
| Shift-JIS | Cenuネ卞 | ||
| TIS-620 | CenuO quê? | ||
| IBM/CP037 (EBCDIC) |
Europa Central e Oriental
Húngaro
Em húngaro, o fenômeno é referido como BETűSZEMÉT , Significado " Letra Garbage ". O húngaro tem sido particularmente suscetível, pois contém as letras acentuadas Á, é, Í, Ó, Ú, Ö, ü (todas presentes no conjunto de caracteres Latin-1), além dos dois caracteres ő e ű que não estão em latim-1-1 . Esses dois caracteres podem ser codificados corretamente no Latin-2, Windows-1250 e Unicode. No entanto, antes que o Unicode se tornasse comum em clientes de e-mail, os e-mails contendo texto húngaro geralmente tinham as cartas ő e ű corrompidas, às vezes ao ponto de irreconhecibilidade. É comum responder a um e-mail corrompido com a frase sem sentido " Árvíztűrő tükörfúrógép " (Literalmente " Máquina de perfuração espelhada resistente a inundações "), que contém todos os caracteres acentuados usados em húngaro.
Exemplos
| Exemplo húngaro | Codificação de fontes | Codificação de alvos | Resultado | Ocorrência |
|---|---|---|---|---|
| ÁRVÍZTRRP TÜKÖRFÚRÓGÉP Anúncio grátis para sua empresa | ||||
| UTF-8 Quoted-printable | 7-bit ASCII | C3=81RVC3 = 8DZTC5 = B0RC5 = 90 TC3 = 9CKKC3 = 96RFC3 = 9ARC3-93GC3 = 89P C3 = A1rv- C3.O quê?C5 = B1RC5 = 91 )- C3 - C3kC3 = B6R.C3 = BARC3 = B3gC3 = A9p | Principalmente causado por servidores de correio incorretamente configurados, mas pode ocorrer em mensagens SMS em alguns telefones celulares também. | |
| ISO 8859-2 Quoted-printable | = C1RV= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =ZT- BIDR= D5 T= DCKK= D6RF- Não.R= D3G= C9P -E1rv=O quê?= FBR= F5 )= FFk= F6R.= FAR= F3g= E9p | |||
| CWI-2 | CP 437 | ÅRV?ZTPRESIDÊNCIARo TÜKÖRFùR?GÉP O que é isso??R? O que fazer? | A codificação CWI-2 foi projetada para que o texto húngaro permaneça bastante legível, mesmo que o dispositivo na extremidade receptora use uma das codificações padrão (CP 437 ou CP 850). Esta codificação foi usada muito fortemente entre o início da década de 1980 e o início da década de 1990, mas hoje em dia é completamente depreciada. | |
| CP 852 | ╡RV╓ZTδRè TÜKÖRFΘRαGÉP O que é isso?√R? O que fazer? | Isso foi muito comum nos dias do DOS, pois o texto foi muitas vezes codificado usando a página de código 852 ("European Central"), mas o software no fim receptor muitas vezes não apoiou o CP 852 e, em vez disso, tentou exibir texto usando CP 437 ou CP 850. As letras minúsculas são principalmente corretas, exceto para ű e ő. Ü/ü e Ö/ö estão corretas porque CP 437 e CP 850 foram feitas compatíveis com o alemão. Embora isso seja raro hoje em dia, ainda pode ser visto em locais como em prescrições e cheques impressos. | ||
| CP 850 | ÁRVÍZT?Rè TÜKÖRFÚRÓGÉPRIO O que é isso?1R? O que fazer? | |||
| Windows-1250 | μRVÖZT?RS T?KKTMRFÉ um problema.R?G?P rv:Gerenciamento de contas‹ )?k"R.ŁR̆g?p | Ambas as codificações são da Europa Central, mas o texto é codificado com a codificação DOS e decodificado com a codificação do Windows. O uso do ű está correto. | ||
| Mac Roman. | μRV÷ZTÇR T- Sim.KK?RFÈR‡G?P †rv°O quê?̊R? )Åk?R.- Não.R*gÇp | Também comum nos dias do DOS, isso pode ser visto quando os computadores da Apple tentaram exibir o texto húngaro enviado usando máquinas DOS ou Windows, pois eles muitas vezes padrão para a própria codificação da Apple. | ||
| Windows-1250 | IRV?ZT€€R’ T‹KK÷RF?R”G...P ·rv?O quê?̊R? )?k,R.;R- Sim.gÈp | |||
| CP 852 | ┴RV═ZT█RŇ T▄KKIRF┌R?G╔P ßrvIGerenciamento de contas# )Telecomunicaçõesk÷R.;R:gÚp | Ambas as codificações são da Europa Central, mas o texto é codificado com a codificação do Windows e decodificado com a codificação DOS. O uso do ű está correto. | ||
| Windows-1252 | ÁRVÍZT- Sim.R? TÜKÖRFÚRÓGÉPRIO O que é isso??R? O que fazer? | A codificação padrão do Windows da Europa Ocidental é usada em vez da central-europeia. Apenas ő-. (õ-.) e ű-. (û-š) estão errados, e o texto é completamente legível. Este é o erro mais comum hoje em dia; devido à ignorância, ocorre muitas vezes em páginas web ou mesmo em mídia impressa. | ||
| UTF-8 | RVÀ vontadeZTÅRÅ TO quê?KK,RFNão.R"A"G(em inglês)P ?rv?O quê?ÅRÅ ' )1⁄4k#R.?RA3gEstá bem.p | Principalmente causada por serviços web ou clientes de webmail que são configurados incorretamente ou não testados para uso internacional (como o problema permanece oculto para textos em inglês). Neste caso, o conteúdo real (muitas vezes gerado) está em UTF-8, mas algum software mais antigo pode ser padrão para codificações localizadas se o UTF-8 não for explicitamente especificado nos cabeçalhos HTML. | ||
| Mac Roman. | √ÅRV√ÇZT≈∞R≈ T√úKK√ñRF√öR√ìG√âP √°rv√ CompetiçãoO quê??R≈ )√°k√∂R.√∫R√≥g√©p |
Polonês
Antes da criação da ISO 8859-2 em 1987, os usuários de várias plataformas de computação usaram suas próprias codificações de personagens, como o AmigaPl no Amiga, o Atari Club em Atari St e Masovia, IBM CP852, Mazovia e Windows CP1250 nos PCs IBM. Empresas poloneses que vendem os primeiros computadores do DOS criaram suas próprias maneiras mutuamente incompatíveis de codificar personagens polonês e simplesmente reprogramar os EPROMs das placas de vídeo (normalmente CGA, EGA ou Hercules) para fornecer páginas de código de hardware com os glifos necessários para o polimento-arbitrariamente localizado sem Referência a onde outros vendedores de computador os colocaram.
A situação começou a melhorar quando, após a pressão dos grupos acadêmicos e de usuários, a ISO 8859-2 foi bem-sucedida como o padrão da Internet " com apoio limitado dos fornecedores dominantes ' software (hoje em grande parte substituído pelo Unicode). Com os numerosos problemas causados pela variedade de codificações, ainda hoje alguns usuários tendem a se referir aos caracteres diacríticos polires como krzaczki ( [ˈkʂät͜ʂ.ki] , lit. " Little; arbustos ").
alfabetos russos e outros baseados em cirílicos
mojibake é chamado coloquialmente krakozyabry (
Enquanto isso, no oeste, o Código da Page 866 apoiava ucraniano e bielorrusso, além de russo e búlgaro no MS-DOS. Para o Microsoft Windows, o código da página 1251 adicionou suporte para variantes sérvias e outras eslavas do cirílico.
Mais recentemente, a codificação do Unicode inclui pontos de código para praticamente todos os caracteres em todos os idiomas, incluindo todos os caracteres cirílicos.
Antes do Unicode, era necessário corresponder a codificação de texto com uma fonte usando o mesmo sistema de codificação; Não fazer isso produzido sem ilegação, cuja aparência específica variava dependendo da combinação exata de texto e codificação de fontes. Por exemplo, tentando ver o texto cirílico não unicode usando uma fonte limitada ao alfabeto latino, ou usando o padrão (" Western ") codificando, normalmente resulta em texto que consiste quase inteiramente de vogais capitalizadas com Marcas diacríticas (por exemplo, Koi8 " бииботperar Texto "> biblioteka , biblioteca) torna-se "Texto em língua russa"> shkola russkogo yazyka , escola de língua russa) torna-se " ûëïìá òõó ë € ñúùëá "). Usando o código página 1251 para visualizar o texto em koi8, ou vice -versa, resulta em texto distorcido que consiste principalmente em letras maiúsculas (koi8 e code 1251 compartilham a mesma região ASCII, mas o koi8 possui letras maiúsculas na região em que o código Page 1251 tem minúscula baixa e vice -versa).
Durante os primeiros anos do setor russo da World Wide Web, foram comuns o Koi8 e o Código. Quase todos os sites agora usam Unicode, mas em novembro de 2023, estima-se que 0,35% de todas as páginas da Web em todo o mundo-todos os idiomas incluídos-ainda estão codificados na página 1251, enquanto menos de 0,003% dos sites ainda estão codificados no KOI8-R. Embora o padrão HTML inclua a capacidade de especificar a codificação para qualquer página da Web em sua fonte, isso às vezes é negligenciado, forçando o usuário a alternar as codificações no navegador manualmente.
Em búlgaro, o mojibake é frequentemente chamado majmunica ( майнница ), significando" Monkey ' s [alfabeto] ". Em sérvio, é chamado đubre (
| Texto original | Codificação de fontes | Codificação de alvos | Resultado |
|---|---|---|---|
| Telecomunicações | |||
| Windows-1251 | KOI8-R | й й А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А А | |
| KOI8-R | Windows-1251 | - Não. | |
| Windows-1252 | O que se passa? | ||
| MS-DOS 855 | ÇO ÆÖO FORMAÇÃO | ||
| Windows-1251 | O que é isso? | ||
| UTF-8 | PRESIDÊNCIA: N. | ||
| KOI8-R | п─п─п─п─п─ппяпппп─п─я─я─я─я─я─я▀ (O segundo personagem é um espaço não quebrado) | ||
| MS-DOS 855 | лЛЛлл║л║л║л║лиЛлл▒ЛЛЛЛЛІ | ||
| Windows-1251 | ССРРРРРРРРРРСРРРРРР СССЂР С±Р±Р±Р СРРРРРР СРРРР СРРРР СРР±Р±Р±Р± С±Р±Р±РР СРРРРРРР СРР±РРРРРРРР СРРРРР СР СРР± СРР±Р±РРРРРРР±РРРРРРРРР±РРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРРР СР СР СР СРРР СРРР СР СРРР СРРРРР Р СРРРРР СРРР Р РРРРРРР РРРРР | ||
| Mac Roman. | –ö—Ä–∞–∫–æ–,—è–±— Ä | ||
| Mac Cyrillic | –А—А–∞–А–А–А—П–±—А—Л |
Línguas jugoslavas
Croatian, Bosnian, Serbian (the seceding varieties of Serbo-Croatian language) and Slovenian add to the basic Latin alphabet the letters š, đ, č, ć, ž, and their capital counterparts Š, Đ, Č, Ć, Ž (apenas Č/Č, Š/Š e Ž/Ž em Eslovena; oficialmente, embora outros sejam usados quando necessário, principalmente em nomes estrangeiros). Todas essas letras são definidas no Latin-2 e no Windows-1250, enquanto apenas algumas (Š, Š, Ž, Ž, đ) existem no Windows-1252 habitual de OS-default e estão lá por causa de alguns outros idiomas.
Embora o Mojibake possa ocorrer com qualquer um desses caracteres, as letras que não estão incluídas no Windows-1252 são muito mais propensas a erros. Assim, mesmo hoje em dia, " Šđ olhćž Šđčćž " é frequentemente exibido como "Šðèž Šðèæž ", embora, è, e æ nunca sejam usados em línguas eslavas.
Quando confinado ao ASCII básico (a maioria dos nomes de usuário, por exemplo), as substituições comuns são: Š → S, đ → DJ, Č → C, ć → C, Ž → Z (capital se forma analogamente, com đ → dj ou Đ → DJ, dependendo do caso do Word). Todas essas substituições introduzem ambiguidades, portanto, a reconstrução do original a partir desse formulário é geralmente feita manualmente, se necessário.
A codificação do Windows-1252 é importante porque as versões em inglês do sistema operacional Windows são mais difundidas, não localizadas. As razões para isso incluem um mercado relativamente pequeno e fragmentado, aumentando o preço da localização de alta qualidade, um alto grau de pirataria de software (por sua vez causado pelo alto preço do software em comparação com a renda), que desencoraja os esforços de localização, e as pessoas preferem versões em inglês de Windows e outro software.
O caminho para diferenciar croata de sérvio, bósnio de croata e sérvio e agora até montenegrina dos outros três cria muitos problemas. Existem muitas localizações diferentes, usando padrões diferentes e de qualidade diferente. Não há traduções comuns para a grande quantidade de terminologia do computador originária em inglês. No final, as pessoas usam palavras de empréstimos em inglês (" Kompjuter " para "Computador", Kompajlirati " para "compilação"; E se eles não estiverem acostumados aos termos traduzidos, eles podem não entender o que alguma opção em um menu deve fazer com base na frase traduzida. Portanto, as pessoas que entendem o inglês, assim como as que estão acostumadas à terminologia do inglês (que são mais, porque a terminologia do inglês também é ensinada principalmente nas escolas por causa desses problemas) escolhem regularmente as versões inglesas originais do software não especialista.
Quando o script cirílico é usado (para macedônio e parcialmente sérvio), o problema é semelhante a outros scripts baseados em cirílico.
Versões mais recentes das janelas em inglês permitem que a página de código seja alterada (as versões mais antigas exigem versões especiais em inglês com esse suporte), mas essa configuração pode ser e muitas vezes foi definida incorretamente. Por exemplo, o Windows 98 e o Windows ME podem ser definidos como a maioria das páginas de código de byte único não-de-direita à esquerda, incluindo 1250, mas apenas no horário de instalação.
Línguas caucasianas
Os sistemas de escrita de certos idiomas da região do Cáucaso, incluindo os scripts da georgiana e armênia, podem produzir mojibake. Esse problema é particularmente agudo no caso de Armscii ou Armscii, um conjunto de codificações obsoletas de caracteres para o alfabeto armênio que foram substituídos pelos padrões Unicode. O ARMSCII não é amplamente utilizado devido à falta de apoio na indústria de computadores. Por exemplo, o Microsoft Windows não suporta.
Codificações asiáticas
Outro tipo de mojibake ocorre quando o texto codificado em uma codificação de um único byte é erroneamente analisado em uma codificação de vários bytes, como uma das codificações para idiomas do leste asiático. Com esse tipo de mojibake, mais de um (normalmente dois) caracteres são corrompidos de uma só vez. Por exemplo, se a palavra sueca kärlek estiver codificada no Windows-1252, mas decodificada usando GBK, ele aparecerá como como aparecerá como " é analisado como '#34; 鋜 鋜 鋜 鋜 鋜 鋜#34;. Comparado ao mojibake acima, isso é mais difícil de ler, já que as cartas não relacionadas ao problemático Å, ä ou Ö estão ausentes e são especialmente problemáticas para palavras curtas, começando com Å, ä ou Ö (por exemplo, " än " torna -se " 鋘 鋘 鋘#34;). Como duas letras são combinadas, o mojibake também parece mais aleatório (mais de 50 variantes em comparação com os três normais, sem contar as capitais mais raras). Em alguns casos raros, uma sequência de texto inteira que inclui um padrão de comprimentos de palavras específicos, como a frase ", Bush escondeu os fatos" pode ser mal interpretada.
Vietnamita
Em vietnamita, o fenômeno é chamado chữ ma (hán - nôm: 𡨸魔, " caracteres fantasmas ") ou lOạn Mã (do chinês乱码, luànmǎ ). Pode ocorrer quando um computador tenta decodificar o texto codificado no UTF-8 como Windows-1258, TCVN3 ou VNI. No Vietnã, chữ ma era comumente visto em computadores que executavam versões pré-vistas de janelas ou telefones celulares baratos.
| Exemplo | Codificação de fontes | Codificação de alvos | Resultado |
|---|---|---|---|
| Anúncio grátis para sua empresa 𤾓𢆥𥪞𡎝𠊛些 (Truyện Kiuu, Nguyen Du) | |||
| UTF-8 | Windows-1258 | T.?MN?m trong cμIngEh!Eu... PRESIDÊNCIA: S.A. | |
| TCVN3 | T."MN"m trong c"Ing?Eu... ¥ ¥ ¥ ¥ ¥ ¥ ¥ | ||
| VNI (Windows) | T.a serMNa serm trong cO quê?Ing?Eu... | ||
| Mac Roman. | T.ÇMNÇm trong c√μμIngGerenciamento de contasEu... ∫ ¢ ¢ Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü Ü ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ |
Japonês
No Japão, o Mojibake é especialmente problemático, pois existem muitas codificações de texto japonês diferentes. Juntamente com as codificações Unicode (UTF-8 e UTF-16), existem outras codificações padrão, como Shift-Jis (Máquinas Windows) e EUC-JP (Sistemas UNIX). Até hoje, Mojibake é frequentemente encontrado pelo povo japonês e não japonês ao tentar executar software escrito para o mercado japonês.
| Texto original | Codificação de fontes | Codificação de alvos | Resultado |
|---|---|---|---|
| のメールの様の様の様の様のメージす ジ 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 ジ ジ 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 様 | |||
| UTF-8 | |||
| UTF-7 | Ø ( q Y _ C G b g) | ||
| EUC-JP | < < 若 吾 吾 吾 吾 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 若 | ||
| Shift-JIS | シ シシシフッッッ ァ∈∈ョョョ シシシクァァ | ||
| Mac Roman. | „ Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å | ||
| ISO 8859-6 | ك ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ك ك ك ك ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه ه | ||
| Windows-1252 | ̄ ̄ ̄ ̄ ƒ ƒ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ | ||
| EUC-JP | ¤ 1⁄4 1⁄4 1⁄4 1⁄4 1⁄4 1⁄4 1⁄4 1⁄4 1⁄4 Ç Ç Ç Ç Ç Ç Ç Ç £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ £ | ||
| Shift-JIS | ¿Qué estás a falar? |
Chinês
Em chinês, o mesmo fenômeno é chamado luàn mǎ (pinyin, chinês simplificado 乱码 , chinês tradicional 亂碼 , significado ' código caótico ') , e pode ocorrer quando o texto computadorizado é codificado em uma codificação de caracteres chineses, mas é exibida usando a codificação errada. Quando isso ocorre, geralmente é possível corrigir o problema alternando a codificação do caractere sem perda de dados. A situação é complicada devido à existência de vários sistemas de codificação de caracteres chineses em uso, sendo os mais comuns: Unicode, Big5 e Guobiao (com várias versões compatíveis com atraso) e a possibilidade de caracteres chineses serem codificados usando a codificação japonesa.
É relativamente fácil identificar a codificação original quando lu -nmǎ ocorre nas codificações de Guobiao:
| Texto original | Codificação de fontes | Codificação de alvos | Resultado | Nota |
|---|---|---|---|---|
| 三國 | Grande. | GB | Linha de produção | Personagens arquivados com quase nenhuma dica de significado original. O caráter vermelho não é um código válido em GB 2312. |
| 文化ナステスト | Shift-JIS | 暥帤壔偗僥僗僩 | Kana é exibido como caracteres com o : (chinês: 人人旁Não. Anúncio grátis para sua empresa) radical, enquanto kanji são outros personagens. Muitos dos personagens substitutos são extremamente incomuns em chinês moderno. Um pouco fácil de identificar devido à presença de vários caracteres . consecutivos. | |
| 이 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 스 | EUC-KR | 抛农聪墨 | Personagens simplificados aleatórios que na maioria dos casos não fazem sentido. Provavelmente o mais fácil de identificar por causa de espaços entre cada vários personagens. |
Um problema adicional em chinês ocorre quando caracteres raros ou antiquados, muitos dos quais ainda são usados em nomes pessoais ou de lugares, não existem em algumas codificações. Exemplos disso são:
- A falta de codificação Big5 do "s" (xuan) em nome do político taiwanês Wang Chien-shien (chinês: 王建Não. Wáng Jiànxuan), o """ (Não.) em nome de Yu Shyi-kun (chinês simplificado: 游; chinês tradicional: O quê?Não. Sim.), e o """ (zhé) em nome do cantor David Tao (chinês: 陶喆Não. Táo Zhé),
- A falta de GB 2312 do "s" (O quê?) em ex-PRC Premier Zhu Rongji (chinês: 朱镕基Não. Zhū Róngjī), e
- A falta do símbolo de direitos autorais "©".
Os jornais lidaram com caracteres ausentes de várias maneiras, incluindo o uso de software de edição de imagens para sintetizá -los combinando outros radicais e caracteres; Usando uma imagem das personalidades (no caso dos nomes das pessoas), ou simplesmente substituindo os homofones na esperança de que os leitores possam fazer a inferência correta.
Texto indício
Um efeito semelhante pode ocorrer em scripts brâmanes ou indicados do sul da Ásia, usados em idiomas indo-arianos ou indicadores como hindustani (hindi-urdu), bengali, punjabi, marathi e outros, mesmo que o conjunto de personagens seja empregado reconhecido corretamente pelo aplicativo. Isso ocorre porque, em muitos scripts indicados, as regras pelas quais os símbolos de cartas individuais se combinam para criar símbolos para sílabas podem não ser adequadamente entendidos por um computador que falta o software apropriado, mesmo que os glifos para os formulários de letra individuais estejam disponíveis.
Um exemplo disso é o antigo logotipo da Wikipedia, que tenta mostrar o personagem análogo a " Wi " (A primeira sílaba da Wikipedia ") Em cada uma das muitas peças do quebra -cabeça. A peça do quebra -cabeça destinada a suportar o personagem Devanagari por " Wi " Em vez disso, usado para exibir o " wa " Personagem seguido por um não pareado " i " vogal modificador, facilmente reconhecível como mojibake gerado por um computador não configurado para exibir texto indic. O logotipo tão redesenhado em maio de 2010 corrigiu esses erros.
A idéia do texto simples exige que o sistema operacional forneça uma fonte para exibir códigos Unicode. Essa fonte é diferente de OS para OS para Singhala e torna os glifos ortograficamente incorretos para algumas letras (sílabas) em todos os sistemas operacionais. Por exemplo, o ' Reph ', o formulário curto para ' r ' é um diacrítico que normalmente fica em cima de uma letra simples. No entanto, é errado ir ao topo de algumas cartas como ' YA ' ou ' la ' em contextos específicos. Para palavras ou nomes sânscríticos herdados por idiomas modernos, como कार्य, IAST: kārya ou आर्या, iAST: āryā , é adequado para colocá -lo em cima dessas letras . Por outro lado, para sons semelhantes em idiomas modernos que resultam de suas regras específicas, não é colocado no topo, como a palavra करणाऱ्या, iAST: karaṇāryā , uma forma de haste da palavra comum करणारा/ी ी gre , IAST: karaṇārā/rī , na língua marathi. Mas isso acontece na maioria dos sistemas operacionais. Isso parece ser uma falha da programação interna das fontes. Em Mac OS e iOS, o Muurdhaja L (Dark L) e ' U ' a combinação e sua forma longa produzem formas erradas.
Alguns scripts indic e indicados, principalmente o Laos, não foram oficialmente apoiados pelo Windows XP até o lançamento do Vista. No entanto, vários sites fizeram fontes gratuitas para baixar.
Birmânia
Devido às sanções ocidentais e à chegada tardia do apoio à linguagem birmanesa em computadores, grande parte da localização do Birmânia foi caseira sem cooperação internacional. Os meios predominantes de apoio birmaneses são através da fonte Zawgyi, uma fonte criada como uma fonte Unicode, mas na verdade era de fato apenas parcialmente compatível com unicode. Na fonte de Zawgyi, alguns pontos de código para script birmaneses foram implementados conforme especificado no Unicode, mas outros não. O consórcio Unicode refere -se a isso como codificações de fontes ad hoc . Com o advento dos telefones celulares, fornecedores móveis como Samsung e Huawei simplesmente substituíram as fontes do sistema compatível com Unicode pelas versões Zawgyi.
Devido a essas codificações ad hoc , as comunicações entre usuários de Zawgyi e Unicode renderizariam como texto distorcido. Para contornar esse problema, os produtores de conteúdo faziam postagens em Zawgyi e Unicode. Governo de Mianmar designado em 1 de outubro de 2019 como 'U-Dia' " para mudar oficialmente para Unicode. A transição completa foi estimada em dois anos.
Línguas africanas
Em certos sistemas de escrita da África, o texto não codificado é ilegível. Os textos que podem produzir mojibake incluem aqueles do chifre da África, como o script ge ' EZ na Etiópia e Eritreia, usado para amárico, tigre e outras línguas, e a língua somali, que emprega o alfabeto de Osmanya. Na África Austral, o alfabeto Mwangwego é usado para escrever idiomas do Malawi e o alfabeto de Mandombe foi criado para a República Democrática do Congo, mas estes geralmente não são apoiados. Vários outros sistemas de escrita nativos da África Ocidental apresentam problemas semelhantes, como o alfabeto n '
Árabe
Outra linguagem afetada é o árabe (veja abaixo), no qual o texto se torna completamente ilegível quando as codificações não correspondem.
Exemplos
| Exemplo árabe | renderização do navegador | Codificação de fontes | Codificação de alvos | Resultado |
|---|---|---|---|---|
(Declaração Universal dos Direitos Humanos) | ||||
| السان الالعالمي لحقوق الالان الان الان الان الان الان الان الان الالان ان الان الان ان ان ان ال ال ال ان ان ال ان ال ال ال ال ال ال ال ال ال ان ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ا ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ال ا ا ال | ||||
| UTF-8 | KOI8-R | ьььььььььььы├ь├ы├ы┴ь┬ь┬ь┬ы┴ы┴ы┴ ы┴ь┬ы┬ы┬ы┌ы┌ ь┌ььььььььы┌ ьы┌ы┌ ь ьььььы┌ы┌ ь ьь┌ы┌ ьь┌ьььь - Sim. | ||
| Windows-1250 | Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř ≤ Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř Ř | |||
| Windows-1251 | Ш (em inglês) (em inglês) Ш§ШNoШ Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш Ш | |||
| Windows-1252 | Ø Ø Ø Ø „ „ „ „ „ Ø Ù Ù Ù Ù ‚ ‚ ‚ Ø ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ ¥ † † † † ... ... ... ... „ „ „ „ „ „ „ | |||
| Windows-1256 | Consultado em 3 de outubro de 2013 «ط¥ط1ת طρظط§ ط§ ط§ ط§ ط§ ط§ ط§ ط§ ظطظת ‚镇 ط§ ‚ ظط§ط§ط§ ظط§ ط ظ ظطρظ ط ط ط ططρظ ط ط ططρظ ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط ط | |||
| ISO 8859-5 | й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й йй ий йй й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й й | |||
| ISO 8859-6 | ظ ظ ظ ع ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ عظ عظ ع ع ع ظ ع ظ ع ظ ع ظ ع ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ ظ | |||
| CP 852 | │ ć ć ć ć ć │ │ │ ć ć ě │ ě ě ě ć ć ć │ │ │ │ ć ć │ │ ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć ć | |||
| CP 866 | з зД╪ е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е е ВД╪╣╪Д╪╣╪зДД┘Е┘Й ВДВнВВВИВ В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В В Ж | |||
| Mac árabe | Consultado em 9 de outubro de 2014 عÑ SmartphoneظعÑ Smartphone'عÜ hood'عÑ Smartphone'عÑ عÑ Laptop-عÇ Consultado em 9 de outubro de 2014 hood'عÑ LaptopظعÜ | |||
| Mac Roman. | ÿ ÿ ÿ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ Ÿ Ÿ Ÿ Ÿ Ÿ Ÿ ≠ ≠ Ÿ Ÿ Ÿ ≠ ≠ ≠ Ÿ Ÿ ≠ ≠ Ÿ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ Ÿ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ ≠ Ÿ Ÿ Ÿ Ÿ ≠ ≠ Ÿ Ÿ Ÿ ≠ ≠ ≠ Ÿ Ÿ Ÿ | |||
| Mac árabe | (em inglês) | |||
| Windows-1256 | «···················******************************************************************************************************************************************************************************************************************************************** | |||
| Windows-1252 | ÇáÅÚÁÇO ÇáÚÁUA FORMAÇÃO |
Os exemplos deste artigo não têm UTF-8 como configuração do navegador, porque o UTF-8 é facilmente reconhecível; portanto, se um navegador suportar UTF-8, deve reconhecê-lo automaticamente e não tentar interpretar outra coisa como UTF- 8.
Ver também
- Ponto de referência
- Característica de substituição
- Característica do substituto
- Newline – As convenções para representar a quebra de linha diferem entre sistemas Windows e Unix. Embora a maioria dos softwares suporta ambas as convenções (que é trivial), software que deve preservar ou exibir a diferença (por exemplo, sistemas de controle de versão e ferramentas de comparação de dados) pode ficar substancialmente mais difícil de usar se não aderir a uma convenção.
- Marca de ordem byte – A maneira mais em banda de armazenar a codificação junto com os dados - prepend it. Isto é pela intenção invisível para os seres humanos usando software compatível, mas será percebido por design como "personagens de criança" para software incompatível (incluindo muitos intérpretes).
- entidades HTML – Uma codificação de caracteres especiais em HTML, principalmente opcional, mas necessário para certos caracteres escapar da interpretação como marcação. Embora a falha em aplicar esta transformação seja uma vulnerabilidade (ver scripting cross-site), aplicá-lo muitas vezes resulta em garbling desses caracteres. Por exemplo, a marca de cotação
"torna-se",",&quot;e assim por diante. - Bush escondeu os fatos
Referências
- ^ King, Ritchie (2012). "O Unicode em breve será o código universal? [The Data]» (em inglês). IEEE Spectrum. 49 (7): 60. doi:10.1109/MSPEC.2012.6221090.
- ^ WINDISCHMANN, Stephan (31 de março de 2004). «curl -v linux.ars (Internationalization)» (em inglês). Ars Technica. Retrieved 5 de Outubro 2018.
- ^ «Guidelines for extended atributos» (em inglês). 2013-05-17. Retrieved 2015-02-15.
- ^ «Unicode mailinglist on the Eudora email client» (em inglês). 2001-05-13. Retrieved 2014-11-01.
- ^ «sms-scam» (em norueguês). 18 de junho de 2014. Retrieved 19 de junho, 2014.
- ^ p. 141, Control + Alt + Delete: Um dicionário de CyberslangJonathon Keats, Globe Pequot, 2007, ISBN 1-59921-039-8.
- ^ «Usage statistics of Windows-1251 for websites» (em inglês). w3techs.com.
- ^ «Usage statistics of KOI8-R for websites» (em inglês). w3techs.com.
- ^ «Declaring character encodings in HTML» (em inglês).
- ^ «PRC GBK (XGB)» (em inglês). Microsoft Microsoft. Arquivado do original em 2002-10-01. Mapa de conversão entre Código página 936 e Unicode. Precisa selecionar manualmente GB 18030 ou GBK no navegador para vê-lo corretamente.
- ^ Cohen, Noam (25 de junho de 2007). «Some Errors Defy Corrigs: A Typo in Wikipedia's Logo Fractures the Sanskrit» (em inglês). The New York Times. Retrieved 17 de Julho 2009.
- ^ «Marathi Typing | English to Marathi | Online Marathi Typing» (em inglês). marathi.com.br. Retrieved 2022-08-02.
- ^ «Content Moved (Windows)» (em inglês). Msdn.microsoft.com. Retrieved 2014-02-05.
- ↑ a b «Unicode in, Zawgyi out: Modernity last catches up in Myanmar's digital world» (em inglês). The Japan Times. 27 de Setembro de 2019. Arquivado do original em 30 de setembro de 2019. Retrieved 24 de Dezembro 2019.
1 de outubro é "U-Day", quando Myanmar vai adotar oficialmente o novo sistema.... A Microsoft e a Apple ajudaram outros países a padronizar anos atrás, mas as sanções ocidentais significaram que Myanmar perdeu.
- ↑ a b Hotchkiss, Griffin (23 de março de 2016). «Battle of the fonts». Fronteira Myanmar. Retrieved 24 de Dezembro 2019.
Com o lançamento do pacote de serviços do Windows XP 2, scripts complexos foram suportados, o que tornou possível para o Windows renderizar uma fonte Burmese compatível com Unicode, como Myanmar1 (lançado em 2005).... Myazedi, BIT, e mais tarde Zawgyi, circunscreveu o problema de renderização adicionando pontos de código extra que foram reservados para as línguas étnicas de Myanmar. Não só o re-mapping impede o apoio à linguagem étnica futura, também resulta em um sistema de digitação que pode ser confuso e ineficiente, mesmo para usuários experientes.... Huawei e Samsung, as duas marcas de smartphones mais populares em Myanmar, são motivadas apenas capturando a maior quota de mercado, o que significa que eles suportam Zawgyi fora da caixa.
- ↑ a b Sin, Thant (7 de setembro de 2019). «Unified under one font system as Myanmar prepares to migrate from Zawgyi to Unicode» (em inglês). Vozes crescentes. Retrieved 24 de Dezembro 2019.
Padrão Myanmar Fontes Unicode nunca foram mainstreamed ao contrário da fonte privada e parcialmente compatível com Unicode Zawgyi.... Unicode irá melhorar o processamento de linguagem natural
- ^ «Why Unicode is Needed» (em inglês). Código do Google: Projeto Zawgyi. Retrieved 31 de Outubro 2013.
- ^ «Myanmar Scripts and Languages» (em inglês). Perguntas frequentes. Consórcio de Unicode. Retrieved 24 de Dezembro 2019.
"UTF-8" tecnicamente não se aplica às codificações de fontes ad hoc, como Zawgyi.
- ^ LaGrow, Nick; Pruzan, Miri (26 de setembro de 2019). «Integrating autoconversion: Facebook's path from Zawgyi to Unicode - Facebook Engineering» (em inglês). Engenharia do Facebook. Facebook. Retrieved 25 de Dezembro 2019.
Ele torna a comunicação em plataformas digitais difíceis, como o conteúdo escrito em Unicode aparece enfeitado para os usuários Zawgyi e vice-versa.... A fim de melhor alcançar seus públicos, os produtores de conteúdo em Myanmar frequentemente postam em Zawgyi e Unicode em um único post, para não mencionar inglês ou outros idiomas.
- ^ Saw Yi Nanda (21 de novembro de 2019). «Myanmar switch to Unicode to take two years: app developer» (em inglês). The Myanmar Times. Arquivado do original em 24 de dezembro de 2019. Retrieved 24 de Dezembro 2019.