Código Hangul unificado
Código Hangul unificado (UHC), o Wansung extendido, también conocido en Microsoft Windows como página de códigos 949 (Windows-949, MS949 o ambiguamente CP949), es la página de códigos de Microsoft Windows para el idioma coreano. Es una extensión del Código Wansung (KS C 5601:1987, codificado como EUC-KR) para incluir las 11172 sílabas Hangul no parciales presentes en Johab (KS C 5601:1992 anexo 3). Esto corresponde a las sílabas precompuestas disponibles en Unicode 2.0 y posteriores.
Wansung Code tiene el inconveniente de que solo asigna códigos para las 2350 sílabas Hangul precompuestas que tienen sus propios puntos de código KS X 1001 (KS C 5601) (de 11172 en total, sin contar aquellos que usan jamo obsoleto), y requiere otros utilizar secuencias de composición de ocho bytes, que no son compatibles con algunas implementaciones parciales del estándar. UHC resuelve esto asignando códigos únicos para todas las sílabas posibles construidas usando jamo moderno, realizando asignaciones fuera del espacio de codificación utilizado para KS X 1001.
El rango de bytes iniciales se extiende a 0x81–FE y el rango de bytes finales se extiende a 0x41–5A, 0x61–7A y 0x81–FE (en EUC-KR, ambos rangos son 0xA1–FE). Los códigos fuera de los rangos EUC-KR se utilizan para el hangul adicional. Si se consideran por separado, tanto el bloque Hangul EUC-KR como la sección Hangul extendida UHC están en orden Unicode.
Terminología
El Código Hangul Unificado no está registrado en la IANA como estándar para comunicar información a través de Internet. Las alternativas incluyen UTF-8. Sin embargo, el estándar de codificación W3C/WHATWG utilizado por HTML5 incorpora las extensiones del Código Hangul Unificado en su definición de "EUC-KR".
Microsoft asigna a Windows-949 la etiqueta "ks_c_5601-1987", que se aplica correctamente al propio KS X 1001 (siendo KS C 5601 el nombre original de KS X 1001). El WHATWG trata la etiqueta "ks_c_5601-1987" indistintamente con "EUC-KR" con la intención de ser "compatible con el contenido implementado". La iniciativa "OBSOLETE/EASTASIA" del Consorcio Unicode La colección de asignaciones retiradas incluía asignaciones para el Código Hangul Unificado como "KSC5601.TXT", y las asignaciones derivadas automáticamente para KS X 1001 de 7 bits se incluyen como "KSX1001.TXT".
La página de códigos 949 de IBM es otra extensión de EUC-KR, que de otro modo no estaría relacionada. Los componentes internacionales para Unicode (ICU) utilizan "cp949", "949" o "ibm-949" para hacer referencia a esa página de códigos de IBM y "ms949" o "windows-949" (o varias variantes de "ks_c_5601-1987") para hacer referencia a la asignación de UHC de Windows. Python, por el contrario, reconoce "cp949", "949", "ms949" y "uhc" como etiquetas para UHC y no incluye un códec IBM-949. De las etiquetas que incorporan el número de página de códigos, WHATWG solo reconoce "windows-949".
La página de códigos de IBM para el Código Hangul unificado se llama Página de códigos 1363 (IBM-1363), o "MS-Win coreano' 34;. Es una combinación de la página de códigos 1126 de SBCS y la página de códigos 1362 de DBCS. Se diferencia en tener una asignación de un solo byte de 0x5C al signo Won (U+20A9); Windows asigna 0x5C a U+005C (el punto de código Unicode para la barra invertida) como en ASCII, aunque las fuentes a menudo todavía lo representan como un signo Ganado. El mapeo Unicode del guión ondulado (0xA1AD) también difiere: el mapeo de IBM favorece a U+301C, mientras que el mapeo de Microsoft favorece a U+223C (Operador Tilde). El mapeo de IBM para UHC está disponible como "ibm-1363" en la UCI, mientras que la UCI "windows-949" El códec se denomina IBM-1261 en algunos comentarios del código fuente de la ICU.
Códigos de un solo byte
A continuación se muestra la parte de un solo byte de la página de códigos tal como la define IBM. De manera similar a la página de códigos 437, los bytes del código de control se pueden usar como códigos de control o códigos gráficos según el contexto; los códigos gráficos se muestran a continuación. Microsoft utiliza asignaciones ASCII para todos los bytes ASCII, aunque es posible que la barra invertida aún se represente como un signo ganado.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
0x | NUL | . | ♪ | À | . | . | . | • | ◘ | :: | introduc | ♂ | ♀ | ♪ | ♪ | . |
1x | . | UU | ↕ | ! | ¶ | . | . | . | ↑ | . | → | ← | ∟ | Administración | . | ▼ |
2x | SP | ! | " | # | $ | % | " | ' | () | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | c) | = | ■ | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | , | ] | ^ | ¿Qué? |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | Sí. | z | {} | Silencio | } | ~ | ⌂ |
Contenido relacionado
Simbolismo sonoro japonés
Kun'yomi
HZ (codificación de caracteres)
OLAC
Spl (Unix)