HZ (codificación de caracteres)

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Formato para enviar texto GB 2312 a un canal ASCII de 7 bits

La codificación de caracteres HZ es una codificación de GB 2312 que anteriormente se usaba comúnmente en correos electrónicos y publicaciones de USENET. Fue diseñado en 1989 por Fung Fung Lee (chino: 李楓峰) de la Universidad de Stanford y posteriormente codificado en 1995 en RFC 1843.

El HZ, corto para Hanzi (simplified Chinese: JUEGO; chino tradicional: 漢 Imprimir; iluminado. 'Características chinas'), se inventó la codificación para facilitar el uso de caracteres chinos a través del correo electrónico, que en ese momento sólo permitía caracteres de 7 bits. Por lo tanto, en lugar de las secuencias estándar ISO 2022 de escape (como en el caso de ISO-2022-JP) o caracteres de 8 bits (como en el caso de EUC), el código HZ utiliza caracteres sólo imprimibles de 7 bits para representar caracteres chinos.

También era popular en las redes USENET, que a finales de los 80 y principios de los 90 generalmente no permitían la transmisión de caracteres de 8 bits o caracteres de escape.

Historia

HZ reemplazó al anterior "zW" codificación, que marcaba líneas enteras como texto GB 2312 comenzando con los caracteres zW.

Estructura y uso

En el sistema de codificación HZ, las secuencias de caracteres "~{" y "~}" actuar como secuencias de escape; cualquier cosa entre ellos se interpreta como chino codificado en GB 2312 (se ignoran los bits más significativos). Fuera de las secuencias de escape, se supone que los caracteres son ASCII.

Un ejemplo ayudará a ilustrar la relación entre GB 2312, EUC-CN y el código HZ:

Varias formas del código GB 2312 (0xD2BB) para el personaje " (uno)
Formulario	Código	Con secuencias de escape	Observaciones
Kuten / Qūwèi / 位 forma	5027	—	Zone/ward/row (ku/qū/.) 50, punto (ten/wèi/,27
Forma ISO 2022	52₁₆ 3B₁₆	0E₁₆ 52₁₆ 3B₁₆ 0F₁₆	50 + 32 = 82 = 52₁₆
Forma EUC-CN	D2₁₆ BB₁₆	D2₁₆ BB₁₆	52₁₆ Alternativa 80₁₆ = D2₁₆
HZ form (standard)	52₁₆ 3B₁₆	7E₁₆ 7B₁₆ 52₁₆ 3B₁₆ 7E₁₆ 7D₁₆	Aparece como - {R} sin decodificador HZ
HZ form (alternate)	D2₁₆ BB₁₆	7E₁₆ 7B₁₆ D2₁₆ BB₁₆ 7E₁₆ 7D₁₆	EUC form acceptable to at least some decoders

HZ se diseñó originalmente para usarse únicamente como código de 7 bits. Sin embargo, cuando las situaciones lo permiten, las secuencias de escape "~{" y "~}" a veces rodean personajes representados en EUC-CN; este uso alternativo permite que el chino sea legible con la ayuda del software decodificador HZ o con un sistema que comprenda EUC-CN.

Además, la especificación define que:

la secuencia "~~" es ser tratado como la codificación de un solo ASCII "~" y,
el personaje "~" seguido por una nueva línea es ser descartado.

Sin embargo, no todos los decodificadores HZ siguen estas dos reglas.

Codificadores y decodificadores HZ

El primer codificador y decodificador HZ fue escrito en 1989 por el inventor del código para el sistema operativo Unix.

El programa hztty, también para el sistema operativo Unix, también estuvo entre los primeros y uno de los decodificadores HZ más populares. Se desvía de la especificación en que mostrará las secuencias de escape (es decir, "~{" y "~}") y no trata "~~. " y "~" seguido de una nueva línea especialmente. Probablemente esto fue para permitir que el software que asume que un carácter ocupa una posición en la pantalla (en una pantalla de texto) funcione correctamente sin modificaciones.

Soporte en Microsoft Windows llegó más tarde, y un número de terceros "sistemas chinos" soporte HZ. Estos sistemas pueden proporcionar una opción para ocultar las secuencias de escape.

Desventajas

Debido a sus secuencias de escape, y además porque sus delimitadores de escape son caracteres imprimibles en ASCII, es bastante fácil construir secuencias de bytes de ataque que viajen de ida y vuelta de HZ a Unicode y viceversa. Por lo tanto, los paquetes de protección contra malware consideran sospechoso el uso de la codificación HZ.

Contenido relacionado

Más resultados...