HZ (codificación de caracteres)
La codificación de caracteres HZ es una codificación de GB 2312 que anteriormente se usaba comúnmente en correos electrónicos y publicaciones de USENET. Fue diseñado en 1989 por Fung Fung Lee (chino: 李楓峰) de la Universidad de Stanford y posteriormente codificado en 1995 en RFC 1843.
El HZ, corto para Hanzi (simplified Chinese: JUEGO; chino tradicional: 漢 Imprimir; iluminado. 'Características chinas'), se inventó la codificación para facilitar el uso de caracteres chinos a través del correo electrónico, que en ese momento sólo permitía caracteres de 7 bits. Por lo tanto, en lugar de las secuencias estándar ISO 2022 de escape (como en el caso de ISO-2022-JP) o caracteres de 8 bits (como en el caso de EUC), el código HZ utiliza caracteres sólo imprimibles de 7 bits para representar caracteres chinos.
También era popular en las redes USENET, que a finales de los 80 y principios de los 90 generalmente no permitían la transmisión de caracteres de 8 bits o caracteres de escape.
Historia
HZ reemplazó al anterior "zW" codificación, que marcaba líneas enteras como texto GB 2312 comenzando con los caracteres zW
.
Estructura y uso
En el sistema de codificación HZ, las secuencias de caracteres "~{" y "~}" actuar como secuencias de escape; cualquier cosa entre ellos se interpreta como chino codificado en GB 2312 (se ignoran los bits más significativos). Fuera de las secuencias de escape, se supone que los caracteres son ASCII.
Un ejemplo ayudará a ilustrar la relación entre GB 2312, EUC-CN y el código HZ:
Formulario | Código | Con secuencias de escape | Observaciones |
---|---|---|---|
Kuten / Qūwèi / 位 forma | 5027 | — | Zone/ward/row (ku/qū/.) 50, punto (ten/wèi/,27 |
Forma ISO 2022 | 5216 3B16 | 0E16 5216 3B16 0F16 | 50 + 32 = 82 = 5216 |
Forma EUC-CN | D216 BB16 | D216 BB16 | 5216 Alternativa 8016 = D216 |
HZ form (standard) | 5216 3B16 | 7E16 7B16 5216 3B16 7E16 7D16 | Aparece como - {R} sin decodificador HZ |
HZ form (alternate) | D216 BB16 | 7E16 7B16 D216 BB16 7E16 7D16 | EUC form acceptable to at least some decoders |
HZ se diseñó originalmente para usarse únicamente como código de 7 bits. Sin embargo, cuando las situaciones lo permiten, las secuencias de escape "~{" y "~}" a veces rodean personajes representados en EUC-CN; este uso alternativo permite que el chino sea legible con la ayuda del software decodificador HZ o con un sistema que comprenda EUC-CN.
Además, la especificación define que:
- la secuencia "~~" es ser tratado como la codificación de un solo ASCII "~" y,
- el personaje "~" seguido por una nueva línea es ser descartado.
Sin embargo, no todos los decodificadores HZ siguen estas dos reglas.
Codificadores y decodificadores HZ
El primer codificador y decodificador HZ fue escrito en 1989 por el inventor del código para el sistema operativo Unix.
El programa hztty, también para el sistema operativo Unix, también estuvo entre los primeros y uno de los decodificadores HZ más populares. Se desvía de la especificación en que mostrará las secuencias de escape (es decir, "~{" y "~}") y no trata "~~. " y "~" seguido de una nueva línea especialmente. Probablemente esto fue para permitir que el software que asume que un carácter ocupa una posición en la pantalla (en una pantalla de texto) funcione correctamente sin modificaciones.
Soporte en Microsoft Windows llegó más tarde, y un número de terceros "sistemas chinos" soporte HZ. Estos sistemas pueden proporcionar una opción para ocultar las secuencias de escape.
Desventajas
Debido a sus secuencias de escape, y además porque sus delimitadores de escape son caracteres imprimibles en ASCII, es bastante fácil construir secuencias de bytes de ataque que viajen de ida y vuelta de HZ a Unicode y viceversa. Por lo tanto, los paquetes de protección contra malware consideran sospechoso el uso de la codificación HZ.
Contenido relacionado
Spl (Unix)
Método de entrada Pinyin
Métodos de entrada chinos para computadoras
Palabra eléctrica
Encuadre