Limpieza de 8 bits
Limpieza de 8 bits es un atributo de los sistemas informáticos, los canales de comunicación y otros dispositivos y software que manejan correctamente las codificaciones de caracteres de 8 bits. Dicha codificación incluye la serie ISO 8859 y la codificación UTF-8 de Unicode.
Historia
Hasta principios de la década de 1990, muchos programas y canales de transmisión de datos estaban orientados a los caracteres y trataban algunos caracteres, por ejemplo, ETX, como caracteres de control. Otros asumieron un flujo de caracteres de siete bits, con valores entre 0 y 127; por ejemplo, el estándar ASCII usaba solo siete bits por carácter, evitando una representación de 8 bits para ahorrar en costos de transmisión de datos. En las computadoras y los enlaces de datos que usan bytes de 8 bits, esto dejó libre el bit superior de cada byte para usarlo como paridad, bit de bandera o bit de control de metadatos. Los sistemas de 7 bits y los enlaces de datos no pueden manejar directamente códigos de caracteres más complejos que son comunes en países de habla no inglesa con alfabetos más grandes.
Los archivos binarios de octetos no se pueden transmitir directamente a través de canales de datos de 7 bits. Para evitar esto, se han diseñado codificaciones de binario a texto que usan solo caracteres ASCII de 7 bits. Algunas de estas codificaciones son uuencoding, Ascii85, SREC, BinHex, kermit y MIME's Base64. Los sistemas basados en EBCDIC no pueden manejar todos los caracteres utilizados en los datos codificados en UU. Sin embargo, la codificación base64 no tiene este problema.
Limpieza SMTP y NNTP de 8 bits
Históricamente, se utilizaron varios medios para transferir mensajes, algunos de ellos solo admitían datos de 7 bits, por lo que un mensaje de 8 bits tenía muchas posibilidades de ser distorsionado durante la transmisión en el siglo XX. Pero algunas implementaciones realmente no se preocuparon por el desincentivo formal de los datos de 8 bits y permitieron el paso de bytes de conjuntos de bits altos. Se dice que tales implementaciones son limpias de 8 bits. En general, se dice que un protocolo de comunicaciones tiene 8 bits limpios si pasa correctamente por el bit alto de cada byte en el proceso de comunicación.
Muchos de los primeros estándares de protocolos de comunicaciones, como RFC 780, 788, 821, 2821, 5321 (para SMTP), RFC 977 (para NNTP) y RFC 1056, se diseñaron para funcionar con dichos estándares de "7 bits&#. 34; enlaces de comunicacion Requieren específicamente el uso de un juego de caracteres ASCII "transmitido como un byte de 8 bits con el bit de orden superior borrado a cero" y algunos de estos restringen explícitamente todos los datos a caracteres de 7 bits.
Durante las primeras décadas de las redes de correo electrónico (desde 1971 hasta principios de la década de 1990), la mayoría de los mensajes de correo electrónico eran texto sin formato en el juego de caracteres US-ASCII de 7 bits.
La definición RFC 788 de SMTP, al igual que su predecesor RFC 780, limita el correo de Internet a líneas (1000 caracteres o menos) de caracteres US-ASCII de 7 bits.
Más tarde, el formato de los mensajes de correo electrónico se redefinió para admitir mensajes que no son completamente de texto US-ASCII (mensajes de texto en conjuntos de caracteres que no sean US-ASCII y mensajes que no son de texto, como audio e imágenes).
RFC 3977 especifica que "NNTP opera sobre cualquier canal de flujo de datos bidireccional confiable de 8 bits de ancho". y cambia el conjunto de caracteres para los comandos a UTF-8. Sin embargo, RFC 5536 aún limita el conjunto de caracteres a ASCII, incluida la codificación MIME RFC 2047 y RFC 2231 de datos que no son ASCII.
La comunidad de Internet generalmente agrega características por extensión, lo que permite la comunicación en ambas direcciones entre las máquinas actualizadas y las que aún no se han actualizado, en lugar de declarar que el software heredado que anteriormente cumplía con los estándares es " roto" e insistiendo en que todo el software en todo el mundo se actualice al último estándar. A mediados de la década de 1990, la gente se oponía a "enviar solo 8 bits (a servidores RFC 821 SMTP)", quizás debido a la percepción de que "enviar solo 8 bits" es una declaración implícita de que ISO 8859-1 se convierte en la nueva 'codificación estándar', lo que obliga a todos en el mundo a usar el mismo juego de caracteres. En cambio, la forma recomendada de aprovechar los enlaces limpios de 8 bits entre máquinas es usar la extensión ESMTP (RFC 1869) 8BITMIME para los cuerpos de los mensajes y la extensión SMTP SMTPUTF8 para los encabezados de los mensajes. A pesar de esto, algunos agentes de transferencia de correo, en particular Exim y qmail, retransmiten el correo a servidores que no anuncian 8BITMIME sin realizar la conversión a MIME de 7 bits (normalmente imprimible entre comillas, "conversión Q-P") requerida por RFC 6152. Este "solo-enviar-8" La actitud de hecho no causa problemas en la práctica, ya que prácticamente todos los servidores de correo electrónico modernos están limpios de 8 bits.
Contenido relacionado
Sistema IBM p
Pruebas de rendimiento del software
Nombre del servidor