CRM114 (programa)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

CRM114 (nombre completo: "The CRM114 Discriminator") es un programa basado en un enfoque estadístico para clasificar datos y se utiliza especialmente para filtrar el spam de correo electrónico.

Origen del nombre

El nombre proviene del discriminador CRM-114 de la película Dr. Strangelove de Stanley Kubrick, un equipo de radio diseñado para filtrar mensajes que carecen de un prefijo de código específico.

Operación

Mientras que otros han realizado un filtrado bayesiano de spam estadístico basado en la frecuencia de aparición de una sola palabra en el correo electrónico, CRM114 logra una mayor tasa de reconocimiento de spam mediante la creación de visitas basadas en frases de hasta cinco palabras de longitud. Estas frases se utilizan para formar un campo aleatorio de Markov que representa los textos entrantes. Con este reconocimiento contextual adicional, es uno de los filtros de spam más precisos disponibles. Las pruebas iniciales realizadas en 2002 por el autor Bill Yerazunis dieron una precisión del 99,87%; Holden y TREC 2005 y 2006 dieron resultados superiores al 99%, con una variación significativa según el corpus en particular.

El clasificador de CRM114 también se puede cambiar para usar el algoritmo Winnow de Littlestone, correlación carácter por carácter, una variante de la clasificación KNN (algoritmo K-vecino más cercano) llamada hiperespacio, un clasificador bit entrópico que utiliza codificación de entropía para determinar la similitud, un SVM, por compresibilidad mutua calculada por un algoritmo LZ77 modificado, y otros clasificadores más experimentales. Las características reales coincidentes se basan en una generalización de skip-grams.

Los algoritmos CRM114 son multilingües (compatibles con codificaciones UTF-8) y seguros para nulos. Se ha demostrado que un conjunto de votación de clasificadores CRM114 detecta documentos confidenciales versus no confidenciales escritos en japonés con una tasa de detección superior al 99,9% y una tasa de falsas alarmas del 5,3%.

CRM114 es un buen ejemplo de software de reconocimiento de patrones, que demuestra cómo se puede lograr el aprendizaje automático con un algoritmo razonablemente simple. El código fuente C del programa está disponible bajo GPL.

A un nivel más profundo, CRM114 también es un lenguaje de coincidencia de patrones de cadenas, similar a grep o incluso a Perl; aunque es Turing completo, está muy optimizado para hacer coincidir texto, e incluso una definición simple (recursiva) del factorial requiere casi diez líneas. Parte de esto se debe a que la sintaxis del lenguaje crm114 no es posicional, sino declinacional. Como lenguaje de programación, puede usarse para muchas otras aplicaciones además de detectar spam. CRM114 utiliza el motor de expresiones regulares de coincidencia aproximada de TRE, por lo que es posible escribir programas que no dependan de cadenas absolutamente idénticas que coincidan para funcionar correctamente.

CRM114 se ha aplicado al filtrado de correo electrónico en el cliente KMail y otras aplicaciones, incluida la detección de bots en Twitter y Yahoo, así como el filtro de primer nivel en el defecto de vehículo del Departamento de Transporte de EE. UU. Sistema de detección. También se ha utilizado como método predictivo para clasificar módulos de software propensos a fallas.

Contenido relacionado

Tarjeta perforada

Una tarjeta perforada es un trozo de papel rígido que contiene datos digitales representados por la presencia o ausencia de agujeros en posiciones...

CPython

CPython es la implementación de referencia del lenguaje de programación Python. Escrito en C y Python, CPython es la implementación predeterminada y más...

Arquitectura Harvard

La Arquitectura Harvard es un modelo de arquitectura informática que separa físicamente la memoria de código de programa de la memoria de almacenamiento de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save