DBCS

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Un juego de caracteres de doble byte (DBCS) es una codificación de caracteres en la que todos los caracteres (incluidos los de control) están codificados en dos bytes, o simplemente todos los caracteres gráficos. El carácter no representable por un juego de caracteres de un solo byte (SBCS) adjunto está codificado en dos bytes (los caracteres Han generalmente comprenderían la mayoría de estos caracteres de dos bytes). Un DBCS admite idiomas nacionales que contienen muchos caracteres o símbolos únicos (la cantidad máxima de caracteres que se pueden representar con un byte es 256 caracteres, mientras que dos bytes pueden representar hasta 65,536 caracteres). Ejemplos de tales idiomas incluyen el japonés y el chino. El Hangul coreano no contiene tantos caracteres, pero KS X 1001 admite Hangul y Hanja y utiliza dos bytes por carácter.

En informática CJK (chino/japonés/coreano)

El término DBCS tradicionalmente se refiere a una codificación de caracteres donde cada carácter gráfico está codificado en dos bytes.

En un código de 8 bits, como Big-5 o Shift JIS, un carácter del DBCS se representa con un byte inicial (primer) con el bit más significativo establecido (es decir, mayor que siete bits), y emparejado con un juego de caracteres de un solo byte (SBCS). Por la razón práctica de mantener la compatibilidad con software comercial no modificado, el SBCS está asociado con caracteres de ancho medio y el DBCS con caracteres de ancho completo. En un código de 7 bits como ISO-2022-JP, se utilizan secuencias de escape o códigos de cambio para cambiar entre SBCS y DBCS.

A veces, el uso del término "DBCS" puede implicar una estructura subyacente que no cumple con ISO 2022. Por ejemplo, "DBCS" A veces puede significar una codificación de doble byte que específicamente no es Código Unix extendido (EUC).

Este significado original de DBCS es diferente de lo que algunos consideran el uso correcto hoy en día. Algunos insisten en que estas codificaciones de caracteres se denominen correctamente conjuntos de caracteres multibyte (MBCS) o codificaciones de ancho variable, porque las codificaciones de caracteres como EUC-JP, EUC-KR, EUC-TW, GB 18030 y UTF-8 utilizan más de dos bytes para algunos caracteres y admiten un byte para otros caracteres.

Ambigüedad

Algunas personas usan DBCS para referirse a las codificaciones UTF-16 y UTF-8, mientras que otras usan el término DBCS para referirse a codificaciones de caracteres más antiguas (pre-Unicode) que usan más de un byte por carácter. Shift JIS, GB 2312 y Big5 son algunas codificaciones de caracteres que pueden contener más de un byte por carácter, pero incluso usar el término DBCS para estas codificaciones de caracteres es una terminología incorrecta porque estas codificaciones de caracteres son en realidad codificaciones de ancho variable (al igual que UTF -16 y UTF-8). Algunos mainframes IBM tienen páginas de códigos DBCS verdaderas, que contienen sólo la parte de doble byte de una página de códigos de varios bytes.

Si una persona utiliza el término "habilitación DBCS" para la internacionalización del software, están utilizando terminología ambigua. O quieren decir que quieren escribir software para los mercados del este de Asia utilizando tecnología más antigua con páginas de códigos, o que planean usar Unicode. A veces, este término también implica traducción a un idioma del este de Asia. Por lo general, la opción "habilitación Unicode" significa internacionalizar el software mediante el uso de Unicode y la "habilitación de DBCS" significa utilizar codificaciones de caracteres incompatibles que existen entre los distintos países del este de Asia para internacionalizar el software. Dado que Unicode, a diferencia de muchas otras codificaciones de caracteres, admite todos los idiomas principales del este de Asia, generalmente es más fácil habilitar y mantener el software que utiliza Unicode. La habilitación de DBCS (no Unicode) generalmente solo se desea cuando sistemas operativos o aplicaciones mucho más antiguos no son compatibles con Unicode.

TBCS

Un juego de caracteres de triple byte (TBCS) es una codificación de caracteres en la que los caracteres (incluidos los caracteres de control) se codifican en tres bytes.

Más resultados...