Reconocimiento de escritura a mano
Reconocimiento de escritura a mano (HWR), también conocido como reconocimiento de texto escrito a mano (HTR), es la capacidad de una computadora para recibir e interpretar entradas manuscritas inteligibles de fuentes tales como documentos en papel, fotografías, pantallas táctiles y otros dispositivos. La imagen del texto escrito puede percibirse "fuera de línea" de una hoja de papel mediante escaneo óptico (reconocimiento óptico de caracteres) o reconocimiento inteligente de palabras. Alternativamente, los movimientos de la punta del lápiz se pueden detectar 'en línea', por ejemplo, mediante la superficie de una pantalla de computadora basada en un lápiz, una tarea generalmente más fácil ya que hay más pistas disponibles. Un sistema de reconocimiento de escritura a mano maneja el formato, realiza la segmentación correcta en caracteres y encuentra las palabras más plausibles.
Reconocimiento sin conexión
El reconocimiento de escritura a mano sin conexión implica la conversión automática del texto de una imagen en códigos de letras que se pueden utilizar en aplicaciones informáticas y de procesamiento de texto. Los datos obtenidos por este formulario se consideran una representación estática de la escritura a mano. El reconocimiento de escritura a mano sin conexión es comparativamente difícil, ya que diferentes personas tienen diferentes estilos de escritura a mano. Y, a partir de hoy, los motores OCR se centran principalmente en texto impreso por máquina e ICR para texto "impreso" a mano. (escrito en mayúsculas) texto.
Técnicas tradicionales
Extracción de caracteres
El reconocimiento de caracteres sin conexión a menudo implica escanear un formulario o documento. Esto significa que será necesario extraer los caracteres individuales contenidos en la imagen escaneada. Existen herramientas que son capaces de realizar este paso. Sin embargo, hay varias imperfecciones comunes en este paso. El más común es cuando los caracteres que están conectados se devuelven como una única subimagen que contiene ambos caracteres. Esto provoca un problema importante en la etapa de reconocimiento. Sin embargo, hay muchos algoritmos disponibles que reducen el riesgo de caracteres conectados.
Reconocimiento de caracteres
Una vez extraídos los caracteres individuales, se utiliza un motor de reconocimiento para identificar el carácter informático correspondiente. Varias técnicas de reconocimiento diferentes están actualmente disponibles.
Extracción de características
La extracción de características funciona de manera similar a los reconocedores de redes neuronales. Sin embargo, los programadores deben determinar manualmente las propiedades que consideran importantes. Este enfoque le da al reconocedor más control sobre las propiedades utilizadas en la identificación. Sin embargo, cualquier sistema que use este enfoque requiere mucho más tiempo de desarrollo que una red neuronal porque las propiedades no se aprenden automáticamente.
Técnicas modernas
Mientras que las técnicas tradicionales se enfocan en segmentar caracteres individuales para su reconocimiento, las técnicas modernas se enfocan en reconocer todos los caracteres en una línea de texto segmentada. Particularmente, se enfocan en técnicas de aprendizaje automático que pueden aprender características visuales, evitando la ingeniería de características limitante utilizada anteriormente. Los métodos más avanzados utilizan redes convolucionales para extraer características visuales en varias ventanas superpuestas de una imagen de línea de texto que utiliza una red neuronal recurrente para producir probabilidades de caracteres.
Reconocimiento en línea
El reconocimiento de escritura a mano en línea implica la conversión automática del texto tal como está escrito en un digitalizador especial o PDA, donde un sensor capta los movimientos de la punta del lápiz, así como el cambio de lápiz hacia arriba y hacia abajo. Este tipo de datos se conoce como tinta digital y puede considerarse como una representación digital de la escritura a mano. La señal obtenida se convierte en códigos de letras que se pueden utilizar en aplicaciones informáticas y de procesamiento de texto.
Los elementos de una interfaz de reconocimiento de escritura a mano en línea suelen incluir:
- un lápiz o un lápiz para que el usuario escriba con.
- una superficie sensible táctil, que puede ser integrada con o adyacente a una pantalla de salida.
- una aplicación de software que interpreta los movimientos de los estilos a través de la superficie de escritura, traduciendo los trazos resultantes en texto digital.
El proceso de reconocimiento de escritura a mano en línea se puede dividir en unos pocos pasos generales:
- preprocesamiento,
- característica extracción y
- clasificación
El propósito del preprocesamiento es descartar información irrelevante en los datos de entrada, que puede afectar negativamente el reconocimiento. Esto se refiere a la velocidad y la precisión. El preprocesamiento generalmente consiste en binarización, normalización, muestreo, suavizado y eliminación de ruido. El segundo paso es la extracción de características. Del campo vectorial bidimensional o de mayor dimensión recibido de los algoritmos de preprocesamiento, se extraen datos de mayor dimensión. El propósito de este paso es resaltar información importante para el modelo de reconocimiento. Estos datos pueden incluir información como la presión del lápiz, la velocidad o los cambios de dirección de escritura. El último gran paso es la clasificación. En este paso, se utilizan varios modelos para asignar las características extraídas a diferentes clases y así identificar los caracteres o palabras que representan las características.
Hardware
A principios de la década de 1980, se introdujeron productos comerciales que incorporaban el reconocimiento de escritura a mano como reemplazo de la entrada del teclado. Los ejemplos incluyen terminales de escritura a mano como Pencept Penpad y la terminal de punto de venta de Inforite. Con el advenimiento del gran mercado de consumo de computadoras personales, se introdujeron varios productos comerciales para reemplazar el teclado y el mouse en una computadora personal con un solo sistema de escritura a mano/señalamiento, como los de Pencept, CIC y otros. La primera computadora portátil tipo tableta disponible comercialmente fue GRiDPad de GRiD Systems, lanzada en septiembre de 1989. Su sistema operativo estaba basado en MS-DOS.
A principios de la década de 1990, los fabricantes de hardware, incluidos NCR, IBM y EO, lanzaron tabletas que ejecutaban el sistema operativo PenPoint desarrollado por GO Corp. PenPoint utilizó gestos y reconocimiento de escritura a mano en todo momento y proporcionó las instalaciones para software de terceros. La tableta de IBM fue la primera en usar el nombre ThinkPad y utilizó el reconocimiento de escritura a mano de IBM. Este sistema de reconocimiento se transfirió más tarde a Microsoft Windows para Pen Computing y a IBM's Pen para OS/2. Ninguno de estos tuvo éxito comercial.
Los avances en la electrónica permitieron que la potencia informática necesaria para el reconocimiento de escritura a mano encajara en un factor de forma más pequeño que las tabletas, y el reconocimiento de escritura a mano se usa a menudo como un método de entrada para PDA de mano. El primer PDA que proporcionó información escrita fue Apple Newton, que expuso al público las ventajas de una interfaz de usuario optimizada. Sin embargo, el dispositivo no fue un éxito comercial debido a la falta de fiabilidad del software, que intentaba aprender los patrones de escritura del usuario. En el momento del lanzamiento de Newton OS 2.0, en el que se mejoró mucho el reconocimiento de escritura a mano, incluidas características únicas que aún no se encuentran en los sistemas de reconocimiento actuales, como la corrección de errores sin modelo, la primera impresión fue en gran medida negativa. Después de la interrupción de Apple Newton, la función se incorporó en Mac OS X 10.2 y más tarde como Inkwell.
Palm lanzó posteriormente una exitosa serie de PDA basadas en el sistema de reconocimiento Graffiti. Graffiti mejoró la usabilidad al definir un conjunto de "unistrokes", o formas de un solo trazo, para cada carácter. Esto redujo la posibilidad de una entrada errónea, aunque la memorización de los patrones de trazo aumentó la curva de aprendizaje para el usuario. Se descubrió que el reconocimiento de escritura a mano de Graffiti infringía una patente de Xerox, y Palm reemplazó a Graffiti con una versión con licencia del reconocimiento de escritura a mano CIC que, si bien también admitía formas de un trazo, era anterior a la patente de Xerox. La decisión judicial de infracción fue revocada en apelación y luego revocada nuevamente en una apelación posterior. Posteriormente, las partes involucradas negociaron un acuerdo sobre esta y otras patentes.
Una Tablet PC es una computadora portátil con una tableta digitalizadora y un lápiz, que permite al usuario escribir texto a mano en la pantalla de la unidad. El sistema operativo reconoce la escritura a mano y la convierte en texto. Windows Vista y Windows 7 incluyen funciones de personalización que aprenden los patrones de escritura o el vocabulario del usuario en inglés, japonés, chino tradicional, chino simplificado y coreano. Las características incluyen un "asistente de personalización" que solicita muestras de la escritura a mano de un usuario y las usa para volver a entrenar el sistema para un reconocimiento de mayor precisión. Este sistema es distinto del sistema de reconocimiento de escritura a mano menos avanzado empleado en su sistema operativo Windows Mobile para PDA.
Aunque el reconocimiento de escritura a mano es una forma de entrada a la que el público se ha acostumbrado, no ha logrado un uso generalizado ni en las computadoras de escritorio ni en las portátiles. Todavía se acepta generalmente que la entrada del teclado es más rápida y más confiable. A partir de 2006, muchas PDA ofrecen entrada de escritura a mano, a veces incluso aceptan escritura cursiva natural, pero la precisión sigue siendo un problema, y algunas personas todavía encuentran más eficiente incluso un simple teclado en pantalla.
Software
El software inicial podía comprender la escritura manuscrita impresa donde los caracteres estaban separados; sin embargo, la escritura cursiva con caracteres conectados presentaba la paradoja de Sayre, una dificultad que involucraba la segmentación de caracteres. En 1962, Shelia Guberman, entonces en Moscú, escribió el primer programa de reconocimiento de patrones aplicado. Los ejemplos comerciales procedían de empresas como Communications Intelligence Corporation e IBM.
A principios de la década de 1990, dos empresas, ParaGraph International y Lexicus, desarrollaron sistemas que podían comprender el reconocimiento de escritura cursiva. ParaGraph se basó en Rusia y fue fundado por el científico informático Stepan Pachikov, mientras que Lexicus fue fundado por Ronjon Nag y Chris Kortge, que eran estudiantes de la Universidad de Stanford. El sistema ParaGraph CalliGrapher se implementó en los sistemas Apple Newton y el sistema Lexicus Longhand se comercializó para los sistemas operativos PenPoint y Windows. Lexicus fue adquirida por Motorola en 1993 y pasó a desarrollar sistemas de texto predictivo y reconocimiento de escritura a mano en chino para Motorola. ParaGraph fue adquirida en 1997 por SGI y su equipo de reconocimiento de escritura a mano formó una división de P&I, más tarde adquirida de SGI por Vadem. Microsoft adquirió el reconocimiento de escritura a mano CalliGrapher y otras tecnologías de tinta digital desarrolladas por P&I de Vadem en 1999.
Wolfram Mathematica (8.0 o posterior) también proporciona una función de reconocimiento de texto o escritura a mano TextRecognize.
Investigación
El reconocimiento de escritura tiene una comunidad activa de académicos que lo estudian. Las conferencias más grandes para el reconocimiento de escritura a mano son la Conferencia Internacional sobre Fronteras en el Reconocimiento de Escritura a Mano (ICFHR), que se lleva a cabo en años pares, y la Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR), que se lleva a cabo en años impares. Ambas conferencias cuentan con el respaldo de IEEE e IAPR. En 2021, las actas de ICDAR serán publicadas por LNCS, Springer.
Las áreas activas de investigación incluyen:
- Reconocimiento en línea
- Reconocimiento en línea
- Verificación de la firma
- Interpretación de la dirección postal
- Procesamiento bancario
- Reconocimiento de escritores
Resultados desde 2009
Desde 2009, las redes neuronales recurrentes y las redes neuronales de avance profundo desarrolladas en el grupo de investigación de Jürgen Schmidhuber en el Swiss AI Lab IDSIA han ganado varios concursos internacionales de escritura a mano. En particular, la memoria a largo plazo bidireccional y multidimensional (LSTM) de Alex Graves et al. ganó tres competencias en reconocimiento de escritura conectada en la Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) de 2009, sin ningún conocimiento previo sobre los tres idiomas diferentes (francés, árabe, persa) a aprender. Recientes métodos de aprendizaje profundo basados en GPU para redes feedforward de Dan Ciresan y colegas de IDSIA ganaron el concurso de reconocimiento de escritura a mano en chino fuera de línea ICDAR 2011; sus redes neuronales también fueron los primeros reconocedores de patrones artificiales en lograr un rendimiento competitivo humano en el famoso problema de dígitos escritos a mano del MNIST de Yann LeCun y sus colegas de la Universidad de Nueva York.
Contenido relacionado
Androide (robot)
Bombasí
6G