HZ (codificación de caracteres)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Formato para enviar texto GB 2312 a un canal ASCII de 7 bits

La codificación de caracteres HZ es una codificación de GB 2312 que anteriormente se usaba comúnmente en correos electrónicos y publicaciones de USENET. Fue diseñado en 1989 por Fung Fung Lee (chino: 李楓峰) de la Universidad de Stanford y posteriormente codificado en 1995 en RFC 1843.

El HZ, corto para Hanzi (simplified Chinese: JUEGO; chino tradicional: 漢 Imprimir; iluminado. 'Características chinas'), se inventó la codificación para facilitar el uso de caracteres chinos a través del correo electrónico, que en ese momento sólo permitía caracteres de 7 bits. Por lo tanto, en lugar de las secuencias estándar ISO 2022 de escape (como en el caso de ISO-2022-JP) o caracteres de 8 bits (como en el caso de EUC), el código HZ utiliza caracteres sólo imprimibles de 7 bits para representar caracteres chinos.

También era popular en las redes USENET, que a finales de los 80 y principios de los 90 generalmente no permitían la transmisión de caracteres de 8 bits o caracteres de escape.

Historia

HZ reemplazó al anterior "zW" codificación, que marcaba líneas enteras como texto GB 2312 comenzando con los caracteres zW.

Estructura y uso

En el sistema de codificación HZ, las secuencias de caracteres "~{" y "~}" actuar como secuencias de escape; cualquier cosa entre ellos se interpreta como chino codificado en GB 2312 (se ignoran los bits más significativos). Fuera de las secuencias de escape, se supone que los caracteres son ASCII.

Un ejemplo ayudará a ilustrar la relación entre GB 2312, EUC-CN y el código HZ:

Varias formas del código GB 2312 (0xD2BB) para el personaje " (uno)
FormularioCódigoCon secuencias de escapeObservaciones
Kuten / Qūwèi / forma5027Zone/ward/row (ku/qū/.) 50, punto (ten/wèi/,27
Forma ISO 20225216 3B160E16 5216 3B16 0F1650 + 32 = 82 = 5216
Forma EUC-CND216 BB16D216 BB165216 Alternativa 8016 = D216
HZ form (standard)5216 3B167E16 7B16 5216 3B16 7E16 7D16Aparece como - {R} sin decodificador HZ
HZ form (alternate)D216 BB167E16 7B16 D216 BB16 7E16 7D16EUC form acceptable to at least some decoders

HZ se diseñó originalmente para usarse únicamente como código de 7 bits. Sin embargo, cuando las situaciones lo permiten, las secuencias de escape "~{" y "~}" a veces rodean personajes representados en EUC-CN; este uso alternativo permite que el chino sea legible con la ayuda del software decodificador HZ o con un sistema que comprenda EUC-CN.

Además, la especificación define que:

  • la secuencia "~~" es ser tratado como la codificación de un solo ASCII "~" y,
  • el personaje "~" seguido por una nueva línea es ser descartado.

Sin embargo, no todos los decodificadores HZ siguen estas dos reglas.

Codificadores y decodificadores HZ

El primer codificador y decodificador HZ fue escrito en 1989 por el inventor del código para el sistema operativo Unix.

El programa hztty, también para el sistema operativo Unix, también estuvo entre los primeros y uno de los decodificadores HZ más populares. Se desvía de la especificación en que mostrará las secuencias de escape (es decir, "~{" y "~}") y no trata "~~. " y "~" seguido de una nueva línea especialmente. Probablemente esto fue para permitir que el software que asume que un carácter ocupa una posición en la pantalla (en una pantalla de texto) funcione correctamente sin modificaciones.

Soporte en Microsoft Windows llegó más tarde, y un número de terceros "sistemas chinos" soporte HZ. Estos sistemas pueden proporcionar una opción para ocultar las secuencias de escape.

Desventajas

Debido a sus secuencias de escape, y además porque sus delimitadores de escape son caracteres imprimibles en ASCII, es bastante fácil construir secuencias de bytes de ataque que viajen de ida y vuelta de HZ a Unicode y viceversa. Por lo tanto, los paquetes de protección contra malware consideran sospechoso el uso de la codificación HZ.

Contenido relacionado

Spl (Unix)

spl es el nombre de una colección de rutinas o macros del kernel de Unix utilizadas. para cambiar el nivel de prioridad de interrupción. Históricamente...

Método de entrada Pinyin

El método pinyin se refiere a una familia de métodos de entrada basados en el método de romanización...

Métodos de entrada chinos para computadoras

Métodos de entrada en chino son métodos que permiten a un usuario de computadora ingresar caracteres chinos. La mayoría, si no todos, los métodos de entrada...

Palabra eléctrica

En 1986, INK Taalservice, con sede en Ámsterdam, una empresa de traducción de alta tecnología al servicio de la nueva industria de las computadoras, lanzó...

Encuadre

Encuadre puede referirse...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save