ISO 639-3

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Estándar internacional para códigos de tres letras que identifican idiomas

ISO 639-3:2007, Códigos para la representación de nombres de idiomas – Parte 3: Código Alpha-3 para una cobertura integral de idiomas, es un estándar internacional para códigos de idioma de la serie ISO 639. Define códigos de tres letras para identificar idiomas. La norma fue publicada por la Organización Internacional de Normalización (ISO) el 1 de febrero de 2007.

ISO 639-3 amplía los códigos ISO 639-2 alfa-3 con el objetivo de cubrir todos los lenguajes naturales conocidos. La cobertura de idiomas ampliada se basó principalmente en los códigos de idioma utilizados en el Ethnologue (volúmenes 10 a 14) publicado por SIL International, que ahora es la autoridad de registro de ISO 639-3. Proporciona una enumeración de lenguas lo más completa posible, incluidas las vivas y extintas, las antiguas y las construidas, las mayores y las menores, las escritas y las no escritas. Sin embargo, no incluye lenguas reconstruidas como el protoindoeuropeo.

ISO 639-3 está diseñado para su uso como códigos de metadatos en una amplia gama de aplicaciones. Se utiliza ampliamente en sistemas informáticos y de información, como Internet, en los que es necesario admitir muchos idiomas. En archivos y otros tipos de almacenamiento de información, se utiliza en sistemas de catalogación, indicando en qué idioma se encuentra un recurso o sobre qué idioma. Los códigos también se utilizan con frecuencia en la literatura lingüística y en otros lugares para compensar el hecho de que los nombres de las lenguas puedan ser oscuros o ambiguos.

Encontrar un idioma
Introduzca un código ISO 639-3 para encontrar el artículo correspondiente del idioma.

Códigos de idioma

ISO 639-3 incluye todos los idiomas en ISO 639-1 y todos los idiomas individuales en ISO 639-2. ISO 639-1 e ISO 639-2 se centraron en los principales idiomas, representados con mayor frecuencia en el cuerpo total de la literatura mundial. Dado que ISO 639-2 también incluye colecciones de idiomas y la Parte 3 no, ISO 639-3 no es un superconjunto de ISO 639-2. Donde existen códigos B y T en ISO 639-2, ISO 639-3 utiliza los códigos T.

Ejemplo de códigos de lenguaje ISO
Idioma	639-1	639-2 (B/T)	Tipo 639-3	Código 639-3
Inglés	en inglés	eng	individual	eng
Francés	fr	fre/fra	individual	fra
Alemán	de	ger/deu	individual	deu
Árabe	ar	ara	macro	ara
Standard Arabic			individual	arb
Masri			individual	arz
Shami			individual	apc
Gilit Arabic			individual	acm
Chino	zh	chi/zho	macro	zho
Mandarin			individual	cm
Cantonés			individual	Yue
Southern Min			individual	nan
Central Thai	T	tha	individual	tha
Southern Thai			individual	sou
Northern Thai			individual	Nod
Lue			individual	khb
Lao/Isan	Lo sé.	lao	individual	lao/tts
Phu Thai	Lo sé.	lao	individual	ph

A 23 de enero de 2023, el estándar contiene 7916 entradas. El inventario de lenguas se basa en una serie de fuentes que incluyen: las lenguas individuales contenidas en 639-2, las lenguas modernas del Ethnologue, las variedades históricas, las lenguas antiguas y las lenguas artificiales de la Lista de Lingüistas, así como las lenguas recomendadas en la lista pública anual. período de comentarios.

La autoridad de registro proporciona los archivos de datos legibles por máquina. Las asignaciones de ISO 639-1 o ISO 639–2 a ISO 639-3 se pueden realizar utilizando estos archivos de datos.

La norma ISO 639-3 pretende asumir distinciones basadas en criterios que no son del todo objetivos. No pretende documentar ni proporcionar identificadores de dialectos u otras variaciones de subidiomas. Sin embargo, los juicios sobre las distinciones entre lenguas pueden ser subjetivos, particularmente en el caso de variedades lingüísticas sin tradiciones literarias establecidas, uso en educación o medios de comunicación, u otros factores que contribuyen a la convencionalización de la lengua. Por lo tanto, la norma no debe considerarse como una declaración autorizada sobre qué lenguas distintas existen en el mundo (sobre las cuales puede haber desacuerdos sustanciales en algunos casos), sino simplemente como una forma útil de identificar con precisión las diferentes variedades de lenguas.

Espacio de código

Dado que el código es alfabético de tres letras, un límite superior para el número de idiomas que se pueden representar es 26 × 26 × 26 = 17,576. Dado que ISO 639-2 define códigos especiales (4), un rango reservado (520) y códigos solo B (22), no se pueden usar 546 códigos en la parte 3. Por lo tanto, un límite superior más estricto es 17,576 − 546 = 17,030.

El límite superior se vuelve aún más estricto si se restan las colecciones de idiomas definidas en 639-2 y las que aún no se han definido en ISO 639-5.

Macrolenguajes

Hay 58 idiomas en ISO 639-2 que se consideran, a los efectos de la norma, "macrolenguajes" en ISO 639-3.

Algunos de estos macrolenguajes no tenían un lenguaje individual según lo definido por ISO 639–3 en el conjunto de códigos de ISO 639-2, p. 'ara' (Árabe genérico). A otros les gusta 'ni' (noruego) tenía sus dos partes individuales ('nno' (Nynorsk), 'nob' (Bokmål)) ya en ISO 639-2.

Eso significa que algunos idiomas (por ejemplo, 'arb', árabe estándar) que fueron considerados por ISO 639–2 como dialectos de un idioma ('ara') ahora están en ISO 639. –3 en determinados contextos considerados lenguas individuales en sí mismas.

Este es un intento de abordar variedades que pueden ser lingüísticamente distintas entre sí, pero que sus hablantes las tratan como dos formas de la misma lengua, p. en casos de diglosia.

Por ejemplo:

ara Ø ISO 639-3 (Arabe Genérico, 639–2)
arb Ø ISO 639-3 (Standard Arabic, 639–3)

Consulte la lista completa.

Lenguajes colectivos

"Un elemento de código de idioma colectivo es un identificador que representa un grupo de idiomas individuales que no se consideran un solo idioma en ningún contexto de uso." Estos códigos no representan precisamente un lenguaje o macrolenguaje en particular.

Si bien ISO 639-2 incluye identificadores de tres letras para idiomas colectivos, estos códigos están excluidos de ISO 639-3. Por tanto, la ISO 639-3 no es un superconjunto de la ISO 639-2.

ISO 639-5 define códigos colectivos de 3 letras para familias y grupos de idiomas, incluidos los códigos de idiomas colectivos de ISO 639-2.

Códigos especiales

En ISO 639-2 e ISO 639-3 se reservan cuatro códigos para casos en los que ninguno de los códigos específicos es apropiado. Están destinados principalmente a aplicaciones como bases de datos donde se requiere un código ISO independientemente de si existe o no.

mis (idiomas no codificadas, originalmente una abreviatura para 'miscelánea') está destinada a los idiomas que no se han incluido en el estándar ISO.
mul (idiomas múltiples) está destinado a casos en los que los datos incluyen más de un idioma, y (por ejemplo) la base de datos requiere un solo código ISO.
und (indeterminado) está destinado a casos en los que no se ha identificado el idioma de los datos, como cuando se ha etiquetado mal o nunca se ha etiquetado. No está destinado a casos como troyano donde se ha dado un nombre a un idioma no autorizado.
zxx (sin contenido lingüístico / no aplicable) está destinado a datos que no es un lenguaje en absoluto, como llamadas animales.

Además, 520 códigos en el rango qaa–qtz están 'reservados para locales utilizar'. Por ejemplo, Rebecca Bettencourt asigna un código a las lenguas construidas y se realizan nuevas asignaciones a pedido. La Lista de Lingüistas los utiliza para lenguas extintas. Linguist List ha asignado a uno de ellos un valor genérico: qnp, protolenguaje sin nombre. Esto se utiliza para nodos intermedios propuestos en un árbol genealógico que no tienen nombre.

Procesos de mantenimiento

La tabla de códigos para ISO 639-3 está abierta a cambios. Para proteger la estabilidad del uso existente, los cambios permitidos se limitan a:

modificaciones a la información de referencia para una entrada (incluyendo nombres o categorizaciones para tipo y alcance),
adición de nuevas entradas,
deprecation of entries that are duplicates or spurious,
fusionando una o más entradas en otra entrada, y
dividir una entrada de idioma existente en múltiples nuevas entradas de idiomas.

El código asignado a un idioma no se cambia a menos que también haya un cambio en la denotación.

Los cambios se realizan en un ciclo anual. Cada solicitud tiene un período mínimo de tres meses para revisión pública.

El sitio web ISO 639-3 tiene páginas que describen los "ámbitos de denotación" (tipos de lenguajes) y tipos de lenguajes, que explican qué conceptos están dentro del alcance de la codificación y ciertos criterios que deben cumplirse. Por ejemplo, los lenguajes construidos pueden codificarse, pero sólo si están diseñados para la comunicación humana y tienen un cuerpo de literatura, evitando solicitudes de invenciones idiosincrásicas.

La autoridad de registro documenta en su sitio web las instrucciones contenidas en el texto de la norma ISO 639-3 sobre cómo se deben mantener las tablas de códigos. También documenta los procesos utilizados para recibir y procesar solicitudes de cambio.

Se proporciona un formulario de solicitud de cambio y hay un segundo formulario para recopilar información sobre las adiciones propuestas. Cualquier parte puede enviar solicitudes de cambio. Cuando se envían, las solicitudes son inicialmente revisadas por la autoridad de registro para verificar que estén completas.

Cuando se recibe una solicitud completamente documentada, se agrega a un índice de solicitudes de cambio publicado. Además, los anuncios se envían a la lista de discusión general de LINGUIST en Linguist List y a otras listas que la autoridad de registro pueda considerar relevantes, invitando al público a revisar y aportar comentarios sobre el cambio solicitado. Cualquier propietario de lista o individuo puede solicitar notificaciones de solicitudes de cambio para regiones o familias de idiomas particulares. Los comentarios que se reciben se publican para que otras partes los revisen. Según el consenso de los comentarios recibidos, una solicitud de cambio puede retirarse o ascenderse a "estado de candidato".

Tres meses antes del final de un ciclo de revisión anual (normalmente en septiembre), se envía un anuncio a la lista de discusión de LINGUISTA y a otras listas sobre las solicitudes de cambio de estado de candidatos. Todas las solicitudes permanecen abiertas para revisión y comentarios hasta el final del ciclo de revisión anual.

Las decisiones se anuncian al final del ciclo de revisión anual (normalmente en enero). En ese momento, las solicitudes podrán adoptarse total o parcialmente, modificarse y trasladarse al siguiente ciclo de revisión, o rechazarse. Los rechazos a menudo incluyen sugerencias sobre cómo modificar las propuestas para volver a presentarlas. Se mantiene un archivo público de cada solicitud de cambio junto con las decisiones tomadas y el fundamento de las decisiones.

Crítica

Los lingüistas Morey, Post y Friedman plantean varias críticas de ISO 639, y en particular ISO 639-3:

Los códigos de tres letras son problemáticos, ya que mientras que las etiquetas técnicas oficialmente arbitrarias, a menudo se derivan de abreviaciones mnemónicas para nombres de idiomas, algunos de los cuales son peyorativos. Por ejemplo, Yemsa fue asignado el código jnjDe peyorativo "Janejero". Estos códigos pueden ser considerados ofensivos por los hablantes nativos. Sin embargo, los códigos pueden cambiarse con una solicitud en el sitio web de SIL.
La administración de la norma es problemática porque SIL es una organización misionera con poca transparencia y rendición de cuentas. Las decisiones sobre lo que merece ser codificado como idioma se toman internamente. Mientras que la entrada exterior puede o no ser bienvenida, las decisiones mismas son opacas, y muchos lingüistas han renunciado a tratar de mejorar la norma.
La identificación permanente de un idioma es incompatible con el cambio de idioma.
Los idiomas y dialectos a menudo no pueden distinguirse rigurosamente, y el dialecto continuo puede ser subdividido de muchas maneras, mientras que los privilegios estándar una opción. Estas distinciones suelen basarse en factores sociales y políticos.
ISO 639-3 puede ser malinterpretado y mal utilizado por las autoridades que toman decisiones sobre la identidad e idioma de las personas, abolindo el derecho de los oradores a identificar o identificar con su variedad de discursos. Aunque SIL es sensible a estas cuestiones, este problema es inherente a la naturaleza de un estándar establecido, que puede ser utilizado (o mal utilizado) de maneras que ISO y SIL no pretenden.

Martin Haspelmath está de acuerdo con cuatro de estos puntos, pero no con el punto sobre el cambio de idioma. No está de acuerdo porque cualquier descripción de una lengua requiere identificarla, y podemos identificar fácilmente diferentes etapas de una lengua. Sugiere que los lingüistas tal vez prefieran utilizar una codificación realizada en el nivel languoidal, ya que "rara vez les importa si de lo que están hablando es de una lengua, un dialecto o una familia de lenguas muy unida". 34; También cuestiona si una norma ISO para la identificación de idiomas es apropiada ya que ISO es una organización industrial, mientras que considera la documentación y nomenclatura de idiomas como un esfuerzo científico. Cita que la necesidad original de identificadores de idiomas estandarizados fue "la importancia económica de la traducción y la localización de software", dijo. para lo cual se establecieron las normas ISO 639-1 y 639-2. Pero plantea dudas sobre la necesidad de la industria de la cobertura integral proporcionada por ISO 639-3, incluyendo "lenguas poco conocidas de pequeñas comunidades que nunca o casi no se utilizan por escrito y que a menudo están en peligro de extinción". 34;.

Uso

Ethnologue
Lista de idiomas
OLAC: Comunidad de Archivo de Idiomas Abiertos
Microsoft Windows 8: Apoya todos los códigos en ISO 639-3 en el momento de la liberación.
Fundación Wikimedia: Los nuevos proyectos basados en lenguaje (por ejemplo, Wikipedias en nuevos idiomas) deben tener un identificador de ISO 639-1, -2, o -3.
Otras normas que dependen de ISO 639-3:
- Etiquetas de idiomas definidas por el Equipo de Tareas de Ingeniería de Internet (IETF), como se documenta en:
  - BCP 47: Mejor práctica actual 47, que incluye RFC 5646
  - RFC 5646, que superó RFC 4646, que superó RFC 3066. (Por lo tanto, todos los estándares que dependen de cualquiera de estos 3 estándares de IETF utilizan ahora ISO 639-3.)
- El estándar ePub 3.0 para metadatos de idiomas utiliza elementos de metadatos básicos de Dublín. Estos elementos de metadatos de lenguaje en ePubs deben contener códigos RFC 5646 válidos para idiomas. RFC5646 apunta a ISO 639-3 para idiomas sin códigos IANA más cortos.
- Metadatos básicos de Dublín Iniciativa: Metadatos DCMI Term for language, via RFC 4646 de IETF (ahora superada por RFC 5646).
- Internet Assigned Numbers Authority (IANA) El esfuerzo de internacionalización de W3C recomienda el uso del Registro de Subtag de Lenguas de IANA para seleccionar códigos para idiomas. El Registro de Subetiquetas de Idiomas IANA depende de códigos ISO 639-3 para idiomas que no tenían códigos previamente en otras partes del estándar ISO 639.
- HTML5: vía BCP 47.
- XML: vía BCP 47.
- SVG: vía BCP 47.
- Códigos de biblioteca MODS: Incorpora la RFC 3066 de IETF (ahora superada por RFC 5646).
- Iniciativa de codificación de texto (TEI): vía BCP 47.
- Marco de marcado Lexical: especificación ISO para la representación de diccionarios legibles por máquina.
- Repositorio de datos local común de Unicode: Usa varios cientos de códigos de ISO 639-3 no incluidos en ISO 639-2.

Más resultados...