Homoglifo

U+0061 a LATIN SMALL LETTER A y
U+0430 а CYRILLIC SMALL LETTER A superpuesto. En la imagen, ambos caracteres se encuentran en Helvetica LT Std Roman.
En ortografía y tipografía, un homoglifo es uno de dos o más grafemas, caracteres o glifos con formas que parecen idénticas o muy similares pero que pueden tener significados diferentes. La designación también se aplica a secuencias de caracteres que comparten estas propiedades.
En 2008, el Consorcio Unicode publicó su Informe Técnico #36 sobre una serie de cuestiones derivadas de la similitud visual de caracteres tanto en scripts individuales, como similitudes entre caracteres en diferentes scripts.
Ejemplos de símbolos homoglíficos son (a) la diéresis y la diéresis (ambos un par de puntos, pero con diferente significado, aunque codificados con los mismos puntos de código); y (b) el guión y el signo menos (ambos un trazo horizontal corto, pero con significado diferente, aunque a menudo codificados con el mismo punto de código). Entre los dígitos y las letras, el dígito 1 y la l minúscula siempre se codifican por separado, pero en muchos tipos de letra se les dan glifos muy similares, y el dígito 0 y la O mayúscula siempre se codifican por separado, pero en muchos tipos de letra se les dan glifos muy similares. Prácticamente todos los ejemplos de un par de caracteres homoglíficos pueden diferenciarse gráficamente con glifos claramente distinguibles y puntos de código separados, pero esto no siempre se hace. Los tipos de letra que no distinguen enfáticamente los homoglifos uno/el y cero/oh se consideran inadecuados para escribir fórmulas, URL, código fuente, identificaciones y otros textos donde los caracteres no siempre se pueden diferenciar sin contexto. Para esos usos se prefieren las fuentes que distinguen los glifos mediante un cero con barra diagonal.
Términos relacionados
El término homógrafo a veces se usa incorrectamente como sinónimo de homoglifo, pero en el sentido lingüístico habitual, los homógrafos son palabras que se escriben igual pero tienen significados diferentes, una propiedad de las palabras, no de caracteres.
Los alógrafos son variantes de diseño tipográfico que parecen diferentes pero significan lo mismo; por ejemplo, ⟨g⟩ y ⟨g⟩, o un signo de dólar con uno o dos trazos. El término sinoglifo tiene un significado similar pero un poco más abstracto; por ejemplo, el símbolo ⟨£⟩ y la letra ⟨L⟩ (en Lsd) significan la libra esterlina, pero sólo en ese contexto. Los alógrafos y los sinoglifos también se conocen informalmente como variantes de visualización.
Diéresis y diéresis
En la época de las primeras máquinas de escribir mecánicas, estas se escribían con la misma tecla (usando la técnica de "retroceso y sobreescritura"), que también se usaba para una doble coma invertida. Sin embargo, la diéresis se originó específicamente como un par de líneas verticales cortas (no dos puntos) (ver Sutterlin). Por cierto, los dos puntos encima de la letra E en albanés se describen como diáresis, pero no cumplen la función de diáresis.
0 y O; 1, yo y yo
Dos conjuntos de homoglifos comunes e importantes que se utilizan hoy en día son el dígito cero y la letra O mayúscula (es decir, 0 y O); y el dígito uno, la letra L minúscula y la i mayúscula (es decir, 1, ly I). En los primeros días de las máquinas de escribir mecánicas había muy poca o ninguna diferencia visual entre estos glifos, y los mecanógrafos los trataban indistintamente como atajos de teclado. De hecho, la mayoría de los teclados ni siquiera tenían una tecla para el dígito "1", lo que obligaba a los usuarios a escribir la letra "l" en cambio, y algunos también omitieron 0. Cuando estos mismos mecanógrafos pasaron a ser operadores de teclados de computadora en las décadas de 1970 y 1980, sus viejos hábitos de mecanografía continuaron con ellos y fueron una fuente ocasional de confusión.
La mayoría de los diseños tipográficos actuales distinguen cuidadosamente entre estos homoglifos, generalmente dibujando el dígito cero más estrecho y dibujando el dígito uno con serifas prominentes. Las primeras impresiones por computadora fueron aún más lejos y marcaron el cero con una barra o un punto, lo que dio lugar a un nuevo conflicto que involucró a la letra escandinava "Ø" y la letra griega Φ (phi). El rediseño de los tipos de personajes para diferenciarlos ha supuesto menos confusión. El grado en que dos personajes diferentes parecen iguales a un observador determinado se denomina "similitud visual".
Algunos diseños tipográficos cumplen con el estándar de legibilidad DIN 1450 al diseñar cuidadosamente dichos caracteres para que sean fáciles de distinguir: cero diagonal para distinguirlo de la O mayúscula; l minúscula con cola y I mayúscula con serifas para distinguirla del dígito 1; distinguiendo el número 5 de la S mayúscula; etc.
Un ejemplo de confusión debido a casi homoglifos surgió del uso de ⟨y⟩ para representar un ⟨þ⟩ (espina). Los primeros tipógrafos ingleses importaron composiciones tipográficas holandesas que no contenían este último carácter, por lo que usaron la letra ⟨y⟩ porque (en el tipo de letra Blackletter) se ven lo suficientemente similares. En los tiempos modernos, ha dado lugar a fenómenos como Ye olde shoppe, lo que implica incorrectamente que la palabra the se escribía anteriormente ye en lugar de . þe. La ortografía del nombre Menzies (pronunciado Mengis y originalmente escrito Menʒies) surgió por la misma razón: la letra ⟨z⟩ fue sustituido por ⟨ʒ⟩ (yogh).
Homoglifos de varias letras

Algunas otras combinaciones de letras se ven similares, por ejemplo, rn se parece a m, cl se parece a d, y vv se parece a w.
En ciertas fuentes con espacios estrechos (como Tahoma), colocar la letra c junto a una letra como j, l o i creará un homoglifo, como cj cl ci (g d a).
Cuando algunos personajes se colocan uno al lado del otro, vistos juntos de un vistazo, dan la impresión visual de otro personaje no relacionado. Una forma más precisa de decir esto es que algunas ligaduras tipográficas pueden parecerse a glifos independientes. Por ejemplo, la ligadura fi (fi) puede parecerse a A en algunos tipos de letra o fuentes. Este potencial de confusión es a veces un argumento en contra del uso de ligaduras.
Homoglifos Unicode

El conjunto de caracteres Unicode contiene muchos caracteres fuertemente homoglíficos, conocidos como "confusables". Estos presentan riesgos de seguridad en una variedad de situaciones (abordados en UTR#36) y recientemente se les ha llamado especial atención con respecto a los nombres de dominio internacionalizados. Se podría falsificar deliberadamente un nombre de dominio reemplazando un carácter con su homoglifo, creando así un segundo nombre de dominio, que no se distingue fácilmente del primero, que puede explotarse en phishing (consulte el artículo principal Ataque de homógrafo de IDN). . En muchas fuentes, la letra griega 'Α', la letra cirílica 'А' y la letra latina 'A' son visualmente idénticos, al igual que la letra latina 'a' y la letra cirílica 'а' (Lo mismo se puede aplicar a las letras latinas "aBceHKopTxy" y a las letras cirílicas "аВсеНКорТху"). Un nombre de dominio puede falsificarse simplemente sustituyendo una de estas formas por otra en un nombre registrado por separado. También hay muchos ejemplos de casi homoglifos dentro de la misma escritura, como 'í' (con acento agudo) y 'i', É (E-agudo) y Ė (E punto arriba) y È (E-grave), Í (con acento agudo) y ĺ (L minúscula con agudo). Cuando se analiza este problema de seguridad específico, dos secuencias cualesquiera de caracteres similares pueden evaluarse en términos de su potencial para ser tomadas como un "par de homoglifos", o si las secuencias parecen claramente palabras, como " ;pseudohomógrafos' (observando nuevamente que estos términos pueden causar confusión en otros contextos). En el idioma chino, muchos caracteres chinos simplificados son homóglifos de los correspondientes caracteres chinos tradicionales.
Los registros de TLD y los diseñadores de navegadores web están realizando esfuerzos para minimizar los riesgos de confusión homoglífica. Por lo general, esto se logra prohibiendo nombres que combinen conjuntos de caracteres de varios idiomas (toys-Я-us.org, usando la letra cirílica Я, no sería válido, pero wíkipedia.org y wikipedia.org todavía existen como sitios web diferentes); El registro canadiense.ca va un paso más allá al exigir que los nombres que difieren sólo en signos diacríticos tengan el mismo propietario y el mismo registrador. El manejo de los caracteres chinos varía: el registro de una variante en in.org e.info hace que la otra no esté disponible para nadie, mientras que en in.biz las versiones tradicional y simplificada del mismo nombre se entregan como un paquete de dos dominios que apuntan al mismo servidor de nombres de dominio.
La documentación relevante se encontrará tanto en la página de los desarrolladores como en la página web de los desarrolladores. Sitios web y en un foro de IDN proporcionado por ICANN.

En cirílico, la C cirílica no solo se parece a la C latina, sino que también ocupa el mismo botón en los teclados de diseño híbrido JCUKEN-QWERTY. Este matiz de diseño se puede ver en el botón C/С representado en el Monumento al Teclado en Ekaterimburgo.
Canonicalization
Los Homoglyphs de todo tipo se pueden detectar a través de un proceso llamado 'canonicalización dual'. El primer paso en este proceso es identificar conjuntos homoglíficos, a saber, los personajes que aparecen igual a un observador dado. Desde aquí se especifica un solo token para representar el conjunto homoglyph. Este token se llama canon. El siguiente paso es convertir cada personaje en el texto al canon correspondiente en un proceso llamado canonicalización. Si los cánones de dos series de texto son los mismos, pero el texto original es diferente, entonces existe un homófilo en el texto.
Prevención de homoglifos
Los ataques de homoglifos se pueden mitigar mediante una combinación de concienciación del usuario y medidas proactivas. Es crucial educar a los usuarios sobre los riesgos asociados con los ataques de homoglifos, instándolos a inspeccionar meticulosamente las URL antes de hacer clic. El empleo de soluciones de seguridad avanzadas, en particular aquellas capaces de escanear en busca de variaciones de homoglifos en los nombres de dominio, puede automatizar la detección y prevención de posibles amenazas. Además, la implementación de políticas estrictas de monitoreo y registro de nombres de dominio puede ayudar a identificar y neutralizar rápidamente los riesgos relacionados con los homoglifos. Al fomentar una cultura de cibervigilancia y aprovechar tecnologías de vanguardia, las organizaciones pueden fortalecer sus defensas contra ataques de homoglifos, garantizando un entorno en línea más seguro.