Caracteres CJK
En internacionalización, caracteres CJK es un término colectivo para los idiomas chino, japonés y coreano, todos los cuales incluyen caracteres chinos y derivados en sus sistemas de escritura, a veces combinados con otras escrituras. Colectivamente, los caracteres CJK a menudo incluyen Hànzì en chino, Kanji y Kana en japonés, Hanja y Hangul en coreano. Se puede incluir vietnamita, formando la abreviatura CJKV, ya que históricamente los vietnamitas usaban caracteres chinos en los que se les conocía como Chữ Hán y Chữ Nôm en vietnamita. (Hán-Nôm en conjunto).
Repertorio de personajes
El chino mandarín estándar y el cantonés estándar se escriben casi exclusivamente en caracteres chinos. Se requieren más de 3000 caracteres para la alfabetización general, con hasta 40 000 caracteres para una cobertura razonablemente completa. El japonés usa menos caracteres: se puede esperar una alfabetización general en japonés con 2136 caracteres. El uso de caracteres chinos en Corea es cada vez más raro, aunque el uso idiosincrásico de caracteres chinos en nombres propios requiere el conocimiento (y por lo tanto la disponibilidad) de muchos más caracteres. Incluso hoy, sin embargo, a los estudiantes de Corea del Sur se les enseñan 1.800 caracteres.
Otras escrituras utilizadas para estos idiomas, como bopomofo y el pinyin basado en latín para chino, hiragana y katakana para japonés y hangul para coreano, no son estrictamente "caracteres CJK", aunque los conjuntos de caracteres CJK casi invariablemente, inclúyalos según sea necesario para una cobertura completa de los idiomas de destino.
El sinólogo Carl Leban (1971) realizó un estudio inicial de los sistemas de codificación CJK.
Hasta principios del siglo XX, el chino clásico era el idioma escrito del gobierno y la erudición en Vietnam. La literatura popular en vietnamita se escribió en la escritura chữ Nôm, que consiste en caracteres chinos con muchos caracteres creados localmente. A partir de la década de 1920, la escritura utilizada desde entonces para registrar la literatura ha sido el latín chữ Quốc ngữ.
Codificación
El número de caracteres necesarios para una cobertura completa de todos estos idiomas' Las necesidades no pueden caber en el espacio de código de 256 caracteres de las codificaciones de caracteres de 8 bits, lo que requiere al menos una codificación de ancho fijo de 16 bits o codificaciones de longitud variable de varios bytes. Las codificaciones de ancho fijo de 16 bits, como las de Unicode hasta la versión 2.0 inclusive, ahora están obsoletas debido al requisito de codificar más caracteres de los que puede acomodar una codificación de 16 bits (Unicode 5.0 tiene unos 70 000 caracteres Han) y el requisito del gobierno chino de que el software en China admita el conjunto de caracteres GB 18030.
Aunque las codificaciones CJK tienen conjuntos de caracteres comunes, las codificaciones que se usan a menudo para representarlas han sido desarrolladas por separado por diferentes gobiernos y empresas de software de Asia oriental y son incompatibles entre sí. Unicode ha intentado, con cierta controversia, unificar los juegos de caracteres en un proceso conocido como unificación Han.
La codificación de caracteres CJK debe consistir como mínimo en caracteres Han más escrituras fonéticas específicas del idioma, como pinyin, bopomofo, hiragana, katakana y hangul.
Las codificaciones de caracteres CJK incluyen:
- Big5 (la codificación más frecuente antes de implementar Unicode)
- CCCII
- CNS 11643 (estándar oficial de la República de China)
- EUC-JP
- EUC-KR
- GB 2312 (conjunto y predecesor de GB 18030)
- GB 18030 (estándar obligatorio en la República Popular China)
- Conjunto de caracteres Giga (GCS)
- ISO 2022-JP
- KS C 5861
- Shift-JIS
- TRON
- Unicode
Los conjuntos de caracteres CJK ocupan la mayor parte del espacio de código Unicode asignado. Existe mucha controversia entre los expertos japoneses en caracteres chinos acerca de la conveniencia y el mérito técnico del proceso de unificación Han que se usa para mapear múltiples juegos de caracteres chinos y japoneses en un solo juego de caracteres unificados.
Los tres idiomas se pueden escribir tanto de izquierda a derecha como de arriba a abajo (de derecha a izquierda y de arriba a abajo en documentos antiguos), pero generalmente se consideran escrituras de izquierda a derecha cuando se habla de problemas de codificación.
Estado legal
Las bibliotecas cooperaron en los estándares de codificación de los caracteres JACKPHY a principios de la década de 1980. Según Ken Lunde, la abreviatura "CJK" era una marca registrada de Research Libraries Group (que se fusionó con OCLC en 2006). La marca comercial propiedad de OCLC entre 1987 y 2009 ya expiró.
Contenido relacionado
Transcripción
Esteban Krashen
Jacob anatoli