ISO/CEI 8859-1

Ajustar Compartir Imprimir Citar
Codificación de caracteres para los alfabetos latinos de los idiomas europeos occidentales

ISO/IEC 8859-1:1998, Tecnología de la información: juegos de caracteres gráficos codificados de un solo byte de 8 bits. Parte 1: Alfabeto latino n.° 1, es parte de la serie ISO/IEC 8859 de codificaciones de caracteres estándar basadas en ASCII, primera edición publicada en 1987. ISO/IEC 8859-1 codifica lo que se denomina "alfabeto latino n. 1", que consta de 191 caracteres del alfabeto latino. Este esquema de codificación de caracteres se utiliza en todo el continente americano, Europa occidental, Oceanía y gran parte de África. Es la base de algunos juegos de caracteres populares de 8 bits y los primeros dos bloques de caracteres en Unicode.

ISO-8859-1 era (según el estándar, al menos) la codificación predeterminada de los documentos enviados a través de HTTP con un tipo MIME que comenzaba con "texto/" (HTML5 cambió esto a Windows-1252). En noviembre del 2022, el 1,3 % de todos los sitios web (pero solo 8 de los 1000 principales) utilizan ISO/IEC 8859-1. Es la codificación de caracteres de un solo byte más declarada del mundo en la Web, pero como los navegadores web la interpretan como el superconjunto Windows-1252, los documentos pueden incluir caracteres de ese conjunto.

Según el país, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Brasil según el uso del sitio web, el uso es del 7,9 % y en Alemania del 4,0 %.

ISO-8859-1 era la codificación predeterminada de los valores de ciertos encabezados HTTP descriptivos y definía el repertorio de caracteres permitidos en los documentos HTML 3.2, y está especificado por muchos otros estándares. A veces se supone que se trata de la codificación de texto en Microsoft Windows (y Unix) si no hay una marca de orden de bytes (BOM); esto solo se está cambiando gradualmente a UTF-8.

ISO-8859-1 es el nombre preferido de IANA para este estándar cuando se complementa con los códigos de control C0 y C1 de ISO/IEC 6429. Se registran los siguientes alias: iso- ir-100, csISOLatin1, latin1, l1, IBM819. La página de códigos 28591, también conocida como Windows-28591, se utiliza en Windows. IBM lo llama página de códigos 819 o CP819 (CCSID 819). Oracle lo llama WE8ISO8859P1.

Cobertura

Cada carácter está codificado como un único valor de código de ocho bits. Estos valores de código se pueden usar en casi cualquier sistema de intercambio de datos para comunicarse en los siguientes idiomas (aunque puede excluir las comillas correctas, como en muchos idiomas, incluidos el alemán y el islandés):

Idiomas modernos con cobertura completa

  • Afrikaans
  • Albania
  • Vasco
  • Breton
  • Corsican
  • Inglés
  • Faroes
  • Gallego
  • islandés
  • Irlandés
  • Indonesia
  • Italiano
  • Leonese
  • Luxemburgo
  • Malayo
  • Manx
  • Noruega
  • Occitan
  • Portugués
  • Rhaeto-Romanic
  • Rotokas
  • Gaelic escocés
  • Scots
  • Southern Sami
  • Español
  • Swahili
  • Suecia
  • Tagalog
  • Walloon
Notas
  1. ^ Ortografía clásica básica
  2. ^ Rumi script
  3. ^ Bokmål y Nynorsk
  4. ^ Europea y Brasil

Idiomas con cobertura incompleta

ISO-8859-1 se usaba comúnmente para ciertos idiomas, aunque carece de los caracteres usados por estos idiomas. En la mayoría de los casos, solo faltan unas pocas letras o rara vez se usan, y se pueden reemplazar con caracteres que están en ISO-8859-1 usando alguna forma de aproximación tipográfica. En la tabla siguiente se enumeran dichos idiomas.

IdiomaPerdiendo personajesTrabajo típicoApoyado por
CatalanL·, l· (deprected)L·, l·
DanésǾ, ⋅ (el acento es opcional y ⋅ es muy raro)Ø, ø o øe
DutchIJ, ij (pero con estatus debatable); j, en palabras destacadas como "blíj'f"digraphs IJ, ij; blíjf
EstoniaŠ, š, Ž, ž (sólo presente en palabras de préstamo)Sh, sh, Zh, zhISO-8859-15, Windows-1252
FinlandŠ, š, Ž, ž (sólo presente en palabras de préstamo)Sh, sh, Zh, zhISO-8859-15, Windows-1252
FrancésY la muy raradigraphs OE, oe; Y or ÍISO-8859-15, Windows-1252
Alemánẞ (capital ß, utilizado sólo en todas las capitales; incluido en la ortografía oficial en 2017, todavía opcional)Digraph SS
Húngaro❌, ő, ⋅, فÖ, ö, Ü, ü
¢, õ, ò, û (los codepoints de carácter reemplazados en ISO/IEC 8859-2)
ISO/IEC 8859-2, Windows-1250
Irlandés (ortografía tradicional)Ḃ, ḃ, ъ, ъ, н, ḟ, Ḟ, ḟ, н, не, й, Ṁ, н, н, ṁ, ṗ, Ṡ, ṡ, ṡ, ṫBh, bh, Ch, ch, Dh, dh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, thISO-8859-14
WelshẀ, ẁ, Ẃ, ẃ, Ŵ, Ẅ, ẅ, Ỳ, ỳ,¿Qué?ISO-8859-14

La letra ÿ, que aparece en francés muy raramente, principalmente en nombres de ciudades como L'Haÿ-les-Roses y nunca al principio de las palabras, se incluye solo en minúsculas formulario. El espacio correspondiente a su forma mayúscula lo ocupa la letra minúscula ß del idioma alemán, que no tenía forma mayúscula en el momento en que se creó el estándar.

Comillas

Para algunos idiomas enumerados anteriormente, faltan las comillas tipográficas correctas, ya que solo « », " ", y ' ' están incluidos. Además, este esquema no proporciona comillas simples o dobles orientadas (en forma de 6 o 9). Algunas fuentes mostrarán el acento grave espaciado (0x60) y el apóstrofe (0x27) como un par de comillas simples orientadas coincidentes, pero esto no se considera parte del estándar moderno.

Historia

ISO 8859-1 se basó en el conjunto de caracteres multinacionales (MCS) utilizado por Digital Equipment Corporation (DEC) en el popular terminal VT220 en 1983. Fue desarrollado dentro de la Asociación Europea de Fabricantes de Computadoras (ECMA) y publicado en marzo 1985 como ECMA-94, nombre por el cual todavía se le conoce a veces. La segunda edición de ECMA-94 (junio de 1986) también incluyó ISO 8859-2, ISO 8859-3 e ISO 8859-4 como parte de la especificación.

El borrador original de ISO 8859-1 colocaba los Œ y œ en francés en los puntos de código 215 (0xD7) y 247 (0xF7), como en el MCS. Sin embargo, el delegado de Francia, que no es lingüista ni tipógrafo, declaró falsamente que no se trata de letras francesas independientes por sí solas, sino meras ligaduras (como fi o f), apoyado por el equipo de delegados de Bull Publishing Company, que normalmente no imprimía en francés con Œ/œ en el estilo de su casa en ese momento. Un delegado anglófono de Canadá insistió en retener Œ/œ pero fue rechazado por el delegado francés y el equipo de Bull. Estos puntos de código pronto se llenaron con × y ÷ por sugerencia de la delegación alemana. El apoyo al francés se redujo aún más cuando se volvió a afirmar falsamente que la letra ÿ es "no francesa", lo que resultó en la ausencia de la mayúscula Ÿ. De hecho, la letra ÿ se encuentra en varios nombres propios franceses, y la letra mayúscula se ha utilizado en diccionarios y enciclopedias. Estos caracteres se agregaron a ISO/IEC 8859-15:1999. BraSCII coincide con el borrador original.

En 1985, Commodore adoptó ECMA-94 para su nuevo sistema operativo AmigaOS. La impresora de matriz de puntos de impacto Seikosha MP-1300AI, utilizada con Amiga 1000, incluía esta codificación.

En 1990, la primera versión de Unicode utilizó los puntos de código de ISO-8859-1 como los primeros 256 puntos de código Unicode.

En 1992, la IANA registró el mapa de caracteres ISO_8859-1:1987, más comúnmente conocido por su nombre MIME preferido de ISO-8859-1 (tenga en cuenta el extra guión sobre ISO 8859-1), un superconjunto de ISO 8859-1, para uso en Internet. Este mapa asigna los códigos de control C0 y C1 a los valores de código no asignados, por lo que proporciona 256 caracteres a través de cada valor posible de 8 bits.

Diseño de página de códigos

ISO/IEC 8859-1
0 1 2 3 4 5 6 7 8 9 A B C D E F
0x
1x
2x SP ! " # $ % " ' () ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; . = ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ ] ^ ¿Qué?
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x Sí. z {} Silencio } ~
8x
9x
Ax NBSP ¡No! ¢ £ # . . § . © a « ¬ SHY ® ̄
Bx ° ± 2 3 ́ μ · . 1 o » 1⁄4 1⁄2 3⁄4 ¿Qué?
Cx À Á # Ã Ä Å . Ç Èl É Ê . . Í Î Ï
Dx . Ñ . Ó Ô . Ö × Ø . Ú . Ü Í . ß
Ex a A . ä å æ ç è é ê ë . í î ï
Fx ð ñ # ó ô õ . . ø ù ú û ü . . ÿ
Undefinido
Símbolos y puntuación
Indefinido en la primera versión de ECMA-94 (1985). En el borrador original estaba en 0xD7 y œ estaba en 0xF7.

Conjuntos de caracteres similares

ISO/CEI 8859-15

ISO/IEC 8859-15 se desarrolló en 1999, como una actualización de ISO/IEC 8859-1. Proporciona algunos caracteres para el texto en francés y finlandés y el símbolo del euro, que faltan en ISO/IEC 8859-1. Esto requirió la eliminación de algunos caracteres de uso poco frecuente de ISO/IEC 8859-1, incluidos los símbolos de fracción y diacríticos sin letras: ¤, ¦, ¨, ´, ¸, ¼, ½, y ¾ . Irónicamente, tres de los caracteres recién agregados (Œ, œ, y Ÿ) ya había estado presente en el conjunto de caracteres multinacionales (MCS) de DEC de 1983, el predecesor de ISO/IEC 8859-1 (1987). Dado que sus puntos de código originales ahora se reutilizaron para otros fines, los caracteres tuvieron que reintroducirse bajo puntos de código diferentes y menos lógicos.

ISO-IR-204, una modificación menor, se había registrado en 1998, alterando ISO-8859-1 reemplazando el signo de moneda universal (¤) con el signo del euro (la misma sustitución hecha por ISO-8859-15).

Windows-1252

El popular conjunto de caracteres de Windows-1252 agrega todos los caracteres que faltan proporcionados por ISO/IEC 8859-15, además de una serie de símbolos tipográficos, al reemplazar los controles C1 que rara vez se usan en el rango de 128 a 159 (hexadecimal 80 a 9F). Es muy común etiquetar erróneamente el texto de Windows-1252 como si estuviera en ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofes (producidos por "comillas tipográficas" en el software de procesamiento de texto) se reemplazaron con signos de interrogación o cuadros en sistemas operativos que no eran de Windows, lo que dificultaba la lectura del texto. Muchos navegadores web y clientes de correo electrónico interpretarán los códigos de control ISO-8859-1 como caracteres de Windows-1252, y ese comportamiento se estandarizó más tarde en HTML5.

Mac Román

La computadora Apple Macintosh introdujo una codificación de caracteres llamada Mac Roman en 1984. Estaba destinada a ser adecuada para la autoedición de Europa Occidental. Es un superconjunto de ASCII y tiene la mayoría de los caracteres que están en ISO-8859-1 y todos los caracteres adicionales de Windows-1252, pero en una disposición totalmente diferente. Los pocos caracteres imprimibles que se encuentran en ISO/IEC 8859-1, pero no en este conjunto, suelen ser una fuente de problemas cuando se edita texto en sitios web con navegadores Macintosh más antiguos, incluida la última versión de Internet Explorer para Mac.

Otro

DOS tiene la página de códigos 850, que tiene todos los caracteres imprimibles que tiene ISO-8859-1, aunque en una disposición totalmente diferente, además de los caracteres gráficos más utilizados de la página de códigos 437.

Entre 1989 y 2015, Hewlett-Packard usó otro superconjunto de ISO-8859-1 en muchas de sus calculadoras. Este juego de caracteres propietario a veces se denominaba simplemente "ECMA-94" también.