Transformación de características invariantes de escala

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

algoritmo de detección de características en la visión de la computadora

La transformación de características invariantes de escala (SIFT) es un algoritmo de visión por computadora para detectar, describir y unir características locales en imágenes, inventado por David Lowe en 1999. Las aplicaciones incluyen reconocimiento de objetos, mapeo y navegación robóticos, unión de imágenes, modelado 3D, reconocimiento de gestos, seguimiento de video, identificación individual de vida silvestre y movimiento de cerillas.

Los puntos clave SIFT de los objetos se extraen primero de un conjunto de imágenes de referencia y se almacenan en una base de datos. Un objeto se reconoce en una nueva imagen comparando individualmente cada característica de la nueva imagen con esta base de datos y encontrando características candidatas coincidentes en función de la distancia euclidiana de sus vectores de características. A partir del conjunto completo de coincidencias, se identifican subconjuntos de puntos clave que coinciden en el objeto y su ubicación, escala y orientación en la nueva imagen para filtrar buenas coincidencias. La determinación de grupos consistentes se realiza rápidamente mediante el uso de una implementación eficiente de tabla hash de la transformada generalizada de Hough. Cada grupo de 3 o más características que coinciden en un objeto y su pose está sujeto a una verificación más detallada del modelo y posteriormente se descartan los valores atípicos. Finalmente, se calcula la probabilidad de que un conjunto particular de características indique la presencia de un objeto, dada la precisión del ajuste y el número de probables coincidencias falsas. Las coincidencias de objetos que pasan todas estas pruebas se pueden identificar como correctas con un alto nivel de confianza.

Aunque el algoritmo SIFT fue previamente protegido por una patente, su patente caducó en 2020.

Descripción general

Para cualquier objeto en una imagen, se pueden extraer puntos interesantes del objeto para proporcionar una "descripción de características" del objeto. Esta descripción, extraída de una imagen de entrenamiento, se puede utilizar para identificar el objeto cuando se intenta localizarlo en una imagen de prueba que contiene muchos otros objetos. Para realizar un reconocimiento confiable, es importante que las características extraídas de la imagen de entrenamiento sean detectables incluso bajo cambios en la escala de la imagen, el ruido y la iluminación. Estos puntos suelen encontrarse en regiones de la imagen de alto contraste, como los bordes de los objetos.

Otra característica importante de estas funciones es que las posiciones relativas entre ellas en la escena original no deben cambiar de una imagen a otra. Por ejemplo, si solo se usaran como características las cuatro esquinas de una puerta, funcionarían independientemente de la posición de la puerta; pero si también se usaran puntos en el marco, el reconocimiento fallaría si la puerta se abre o se cierra. De manera similar, las características ubicadas en objetos articulados o flexibles normalmente no funcionarían si se produjera algún cambio en su geometría interna entre dos imágenes del conjunto que se está procesando. Sin embargo, en la práctica, SIFT detecta y utiliza una cantidad mucho mayor de características de las imágenes, lo que reduce la contribución de los errores causados por estas variaciones locales en el error promedio de todos los errores de coincidencia de características.

SIFT puede identificar objetos de manera sólida incluso entre el desorden y bajo oclusión parcial, porque el descriptor de características SIFT es invariante a cambios de escala, orientación y iluminación uniformes y parcialmente invariante a la distorsión afín. Esta sección resume el algoritmo SIFT original y menciona algunas técnicas competitivas disponibles para el reconocimiento de objetos en condiciones de desorden y oclusión parcial.

El descriptor SIFT se basa en mediciones de imágenes en términos de campos receptivos sobre los cuales marcos de referencia invariantes de escala local se establecen mediante la selección de escala local. En el artículo de Scholarpedia sobre SIFT se ofrece una explicación teórica general sobre esto.

Problema	Técnica	Ventajas
localización clave / escala / rotación	Diferencia de Gaussians / escala-espacio pirámide / orientación asignación	precisión, estabilidad, escala " invariancia rotatoria
distorsión geométrica	borroso / resonancia de planos locales de orientación de imagen	affine invariance
indexación y coincidencia	vecino más cercano / Best Bin Primera búsqueda	Eficiencia / velocidad
Identificación del grupo de expertos	Hough Transform vote	modelos de pose fiables
Verificación de modelos / detección de adelgazamiento	Placas mínimas lineales	mejor tolerancia al error con menos coincidencias
Aceptación de la hipótesis	Análisis de la probabilidad bayesiana	fiabilidad

Tipos de características

La detección y descripción de características locales de la imagen puede ayudar en el reconocimiento de objetos. Las características SIFT son locales y se basan en la apariencia del objeto en puntos de interés particulares, y son invariantes con la escala y la rotación de la imagen. También son resistentes a cambios de iluminación, ruido y cambios menores en el punto de vista. Además de estas propiedades, son muy distintivas, relativamente fáciles de extraer y permiten una identificación correcta de los objetos con una baja probabilidad de que no coincidan. Son relativamente fáciles de comparar con una base de datos (grande) de características locales pero, sin embargo, la alta dimensionalidad puede ser un problema y, en general, se utilizan algoritmos probabilísticos como árboles k-d con la mejor búsqueda en el contenedor primero. La descripción de objetos mediante un conjunto de características SIFT también es sólida ante la oclusión parcial; tan solo 3 características SIFT de un objeto son suficientes para calcular su ubicación y pose. El reconocimiento se puede realizar casi en tiempo real, al menos para bases de datos pequeñas y en hardware informático moderno.

Etapas principales

Detección de características invariantes de escala

El método de Lowe para la generación de características de imágenes transforma una imagen en una gran colección de vectores de características, cada uno de los cuales es invariante a la traducción, escalado y rotación de la imagen, parcialmente invariante a los cambios de iluminación y robusto a la distorsión geométrica local.. Estas características comparten propiedades similares con las neuronas de la corteza visual primaria que codifican formas, colores y movimientos básicos para la detección de objetos en la visión de los primates. Las ubicaciones clave se definen como máximos y mínimos del resultado de la diferencia de la función gaussiana aplicada en el espacio de escala a una serie de imágenes suavizadas y remuestreadas. Se descartan los puntos candidatos de bajo contraste y los puntos de respuesta de borde a lo largo de un borde. Las orientaciones dominantes se asignan a puntos clave localizados. Estos pasos garantizan que los puntos clave sean más estables para la coincidencia y el reconocimiento. Luego se obtienen descriptores SIFT resistentes a la distorsión afín local considerando los píxeles alrededor de un radio de la ubicación clave, desenfocando y remuestreando los planos de orientación de la imagen local.

Coincidencia e indexación de funciones

La indexación consiste en almacenar claves SIFT e identificar claves coincidentes a partir de la nueva imagen. Lowe utilizó una modificación del algoritmo del árbol k-d llamado método de búsqueda mejor-bin-primero que puede identificar a los vecinos más cercanos con alta probabilidad utilizando solo una cantidad limitada de cálculo. El algoritmo BBF utiliza un orden de búsqueda modificado para el algoritmo de árbol k-d de modo que los contenedores en el espacio de características se buscan en el orden de su distancia más cercana a la ubicación de la consulta. Este orden de búsqueda requiere el uso de una cola de prioridad basada en montón para una determinación eficaz del orden de búsqueda. Obtenemos un candidato para cada punto clave identificando su vecino más cercano en la base de datos de puntos clave a partir de imágenes de entrenamiento. Los vecinos más cercanos se definen como los puntos clave con una distancia euclidiana mínima desde el vector descriptor dado. La forma en que Lowe determinó si un determinado candidato debía mantenerse o “desecharse”; es verificando la relación entre la distancia desde este candidato dado y la distancia desde el punto clave más cercano que no es de la misma clase de objeto que el candidato en cuestión (vector de características candidatas / vector de características de clase diferente más cercano), la idea es que podemos Sólo asegúrese de seleccionar candidatos en los que las características/puntos clave de distintas clases de objetos no "desordenen" el espacio. (no necesariamente desorden geométrico en el espacio de características, sino más desorden a lo largo de la mitad derecha (>0) de la línea real), esta es una consecuencia obvia de usar la distancia euclidiana como nuestra medida del vecino más cercano. El umbral de ratio de rechazo es siempre que sea superior a 0,8. Este método eliminó el 90% de las coincidencias falsas y descartó menos del 5% de las coincidencias correctas. Para mejorar aún más la eficiencia del algoritmo de mejor contenedor primero, la búsqueda se cortó después de verificar los primeros 200 candidatos vecinos más cercanos. Para una base de datos de 100.000 puntos clave, esto proporciona una aceleración de la búsqueda exacta del vecino más cercano en aproximadamente 2 órdenes de magnitud, pero da como resultado una pérdida de menos del 5 % en el número de coincidencias correctas.

Identificación de clústeres mediante votación por transformación de Hough

La transformada de Hough se utiliza para agrupar hipótesis de modelos confiables para buscar claves que coincidan con una postura de modelo particular. La transformación de Hough identifica grupos de características con una interpretación consistente utilizando cada característica para votar por todas las poses de objetos que son consistentes con la característica. Cuando se descubre que grupos de características votan por la misma pose de un objeto, la probabilidad de que la interpretación sea correcta es mucho mayor que para cualquier característica individual. Se crea una entrada en una tabla hash que predice la ubicación, orientación y escala del modelo a partir de la hipótesis de coincidencia. Se busca en la tabla hash para identificar todos los grupos de al menos 3 entradas en un contenedor, y los contenedores se clasifican en orden decreciente de tamaño.

Cada uno de los puntos clave de SIFT especifica la ubicación, escala y orientación 2D, y cada punto clave coincidente en la base de datos tiene un registro de sus parámetros en relación con la imagen de entrenamiento en la que se encontró. La transformación de similitud implícita en estos 4 parámetros es solo una aproximación al espacio de pose completo de 6 grados de libertad para un objeto 3D y tampoco tiene en cuenta ninguna deformación no rígida. Por lo tanto, Lowe utilizó tamaños de contenedor amplios de 30 grados para la orientación, un factor de 2 para la escala y 0,25 veces la dimensión máxima de la imagen de entrenamiento proyectada (usando la escala prevista) para la ubicación. Las muestras de clave SIFT generadas a mayor escala reciben el doble de peso que las de menor escala. Esto significa que la escala más grande es, de hecho, capaz de filtrar los vecinos más probables para realizar comprobaciones en la escala más pequeña. Esto también mejora el rendimiento del reconocimiento al darle más peso a la báscula menos ruidosa. Para evitar el problema de los efectos de los límites en la asignación de contenedores, cada coincidencia de puntos clave vota por los 2 contenedores más cercanos en cada dimensión, lo que da un total de 16 entradas para cada hipótesis y amplía aún más el rango de pose.

Verificación del modelo por mínimos cuadrados lineales

Cada grupo identificado se somete a un procedimiento de verificación en el que se realiza una solución lineal de mínimos cuadrados para los parámetros de la transformación afín que relaciona el modelo con la imagen. La transformación afín de un punto de modelo [x y]^T a un punto de imagen [u v]^T se puede escribir como se muestra a continuación

{displaystyle {begin{bmatrix}uvend{bmatrix}}={begin{bmatrix}m_{1}&m_{2}m_{3}&m_{4}end{bmatrix}}{begin{bmatrix}xyend{bmatrix}}+{begin{bmatrix}t_{x}t_{y}end{bmatrix}}}

donde la traducción del modelo es [t_x t_y]^T y la rotación, escala y estiramiento afines están representados por los parámetros m₁, m₂, m₃ y m₄. Para resolver los parámetros de transformación, la ecuación anterior se puede reescribir para reunir las incógnitas en un vector de columna.

{displaystyle {begin{bmatrix}x&y&0&0&1&0&0&x&y&0&1........end{bmatrix}}{begin{bmatrix}m1m2m3m4t_{x}t_{y}end{bmatrix}}={begin{bmatrix}uv..end{bmatrix}}}

Esta ecuación muestra un solo partido, pero cualquier número de partidos adicionales se puede agregar, con cada partido aportando dos filas más a la primera y última matriz. Se necesitan al menos 3 fósforos para proporcionar una solución. Podemos escribir este sistema lineal como

{displaystyle A{hat {mathbf {x} }}approx mathbf {b}}

donde A es una matriz m-por-n conocida (normalmente con m > n), x es un vector de parámetros n-dimensional desconocido y b es un m-dimensional.

Por lo tanto, el vector de minimización ${displaystyle {hat {mathbf {x} }}}$ es una solución ecuación normal

${displaystyle A^{T}!A{hat {mathbf {x} }}=A^{T}mathbf {b}.}$

La solución del sistema de ecuaciones lineales se da en términos de la matriz ${displaystyle (A^{T}A)^{-1}A^{T}}$ , llamado el pseudoinverso de A, por

${displaystyle {hat {mathbf {x} }}=(A^{T}!A)^{-1}A^{T}mathbf {b}.}$

que minimiza la suma de los cuadrados de las distancias desde las ubicaciones del modelo proyectado hasta las ubicaciones de la imagen correspondiente.

Detección de valores atípicos

Ahora se pueden eliminar los valores atípicos comprobando la concordancia entre cada característica de la imagen y el modelo, dada la solución del parámetro. Dada la solución de mínimos cuadrados lineales, se requiere que cada coincidencia coincida dentro de la mitad del rango de error que se utilizó para los parámetros en los contenedores de transformación de Hough. A medida que se descartan los valores atípicos, la solución de mínimos cuadrados lineales se vuelve a resolver con los puntos restantes y el proceso se repite. Si quedan menos de 3 puntos después de descartar los valores atípicos, la coincidencia se rechaza. Además, se utiliza una fase de coincidencia de arriba hacia abajo para agregar más coincidencias que concuerden con la posición del modelo proyectado, que pueden haberse omitido en el contenedor de transformación de Hough debido a la aproximación de transformación de similitud u otros errores.

La decisión final de aceptar o rechazar la hipótesis de un modelo se basa en un modelo probabilístico detallado. Este método primero calcula la cantidad esperada de coincidencias falsas con la pose del modelo, dado el tamaño proyectado del modelo, la cantidad de características dentro de la región y la precisión del ajuste. Luego, un análisis de probabilidad bayesiano proporciona la probabilidad de que el objeto esté presente en función del número real de características coincidentes encontradas. Se acepta un modelo si la probabilidad final de una interpretación correcta es mayor que 0,98. El reconocimiento de objetos basado en SIFT de Lowe ofrece excelentes resultados, excepto en amplias variaciones de iluminación y en transformaciones no rígidas.

Algoritmo

Detección de extremos en el espacio de escala

Comenzamos detectando puntos de interés, que se denominan puntos clave en el marco SIFT. La imagen está convuelta con filtros gaussianos a diferentes escalas, y luego se toman la diferencia de imágenes sucesivas Gaussian-blurred. Los puntos clave se toman como máximo/minima de la Diferencia de Gaussians (DoG) que ocurren a múltiples escalas. Específicamente, una imagen DoG ${displaystyle Dleft(x,y,sigma right)}$ es dado por

${displaystyle Dleft(x,y,sigma right)=Lleft(x,y,k_{i}sigma right)-Lleft(x,y,k_{j}sigma right)}$ ,

Donde ${displaystyle Lleft(x,y,ksigma right)}$ es la evolución de la imagen original ${displaystyle Ileft(x,yright)}$ con el borrón gaisiano ${displaystyle Gleft(x,y,ksigma right)}$ a escala ${displaystyle ksigma }$ , es decir,

${displaystyle Lleft(x,y,ksigma right)=Gleft(x,y,ksigma right)*Ileft(x,yright)}$

De ahí una imagen DoG entre escalas ${displaystyle k_{i}sigma }$ y ${displaystyle k_{j}sigma }$ es sólo la diferencia de las imágenes de Gaussian-blurred a escalas ${displaystyle k_{i}sigma }$ y ${displaystyle k_{j}sigma }$ . Para la detección extrema del espacio de escala en el algoritmo SIFT, la imagen se convocó primero con Gaussian-blurs a diferentes escalas. Las imágenes convolvidas se agrupan por octava (una octava corresponde a duplicar el valor de ${displaystyle sigma }$ ), y el valor de ${displaystyle k_{i}}$ es seleccionado para obtener un número fijo de imágenes convolvidas por octava. Luego las imágenes Difference-of-Gaussian son tomadas de imágenes colindantes de Gaussian-blurred por octava.

Una vez obtenidas imágenes de DoG, se identifican puntos clave como minima/maxima local de las imágenes de DoG a través de escalas. Esto se hace comparando cada píxel en las imágenes DoG a sus ocho vecinos a la misma escala y nueve píxeles vecinos correspondientes en cada una de las escalas vecinas. Si el valor pixel es el máximo o mínimo entre todos los píxeles comparados, se selecciona como un punto clave candidato.

Este paso de detección de puntos clave es una variación de uno de los métodos de detección de manchas desarrollados por Lindeberg mediante la detección de extremos de espacio de escala de la escala laplaciana normalizada; es decir, detectar puntos que son extremos locales con respecto tanto al espacio como a la escala, en el caso discreto, mediante comparaciones con los 26 vecinos más cercanos en un volumen de espacio de escala discretizado. La diferencia del operador gaussiano puede verse como una aproximación al laplaciano, y la normalización implícita en la pirámide también constituye una aproximación discreta del laplaciano normalizado en escala. Lindeberg y Bretzner han presentado otra implementación en tiempo real de los extremos del espacio de escala del operador laplaciano basada en una representación piramidal híbrida, que se utilizó para la interacción persona-computadora mediante el reconocimiento de gestos en tiempo real en Bretzner et al. (2002).

Localización de puntos clave

La detección de extremos en el espacio de escala produce demasiados candidatos de puntos clave, algunos de los cuales son inestables. El siguiente paso del algoritmo es realizar un ajuste detallado de los datos cercanos para obtener una ubicación, escala y proporción precisas de las curvaturas principales. Esta información permite rechazar puntos de bajo contraste (y por tanto sensibles al ruido) o mal localizados a lo largo de un borde.

Interpolación de datos cercanos para una posición precisa

En primer lugar, para cada punto clave candidato, la interpolación de datos cercanos se utiliza para determinar con precisión su posición. El enfoque inicial fue localizar cada punto clave en la ubicación y escala del punto clave candidato. El nuevo enfoque calcula la ubicación interpolada del extremum, que mejora sustancialmente la compatibilidad y estabilidad. La interpolación se realiza utilizando la expansión cuadrática de Taylor de la función de escala-espacio Diferencia-del-Gaussian, ${displaystyle Dleft(x,y,sigma right)}$ con el punto clave candidato como el origen. Esta expansión de Taylor es dada por:

${displaystyle D({textbf {x}})=D+{frac {partial D}{partial {textbf {x}}}}^{T}{textbf {x}}+{frac {1}{2}}{textbf {x}}^{T}{frac {partial ^{2}D}{partial {textbf {x}}^{2}}}{textbf {x}}}$

donde D y sus derivados se evalúan en el punto clave candidato y ${displaystyle {textbf {x}}=left(x,y,sigma right)^{T}}$ es la compensación desde este punto. La ubicación del extremum, ${displaystyle {hat {textbf {x}}}}$ , se determina tomando el derivado de esta función con respecto a ${displaystyle {textbf {x}}}$ y ponerlo a cero. If the offset ${displaystyle {hat {textbf {x}}}}$ es más grande que ${displaystyle 0.5}$ en cualquier dimensión, entonces esa es una indicación de que el extremum está más cerca de otro punto clave candidato. En este caso, se cambia el punto clave candidato y la interpolación se realiza en lugar de eso. De lo contrario, el offset se añade a su punto clave candidato para obtener la estimación interpolada para la ubicación del extremum. Una determinación subpixel similar de los lugares de extrema escala-espacio se realiza en la implementación en tiempo real basada en pirámides híbridas desarrolladas por Lindeberg y sus colaboradores.

Descartar puntos clave de bajo contraste

Para descartar los puntos clave con bajo contraste, el valor de la expansión Taylor de segundo orden ${displaystyle D({textbf {x}})}$ se calcula en el offset ${displaystyle {hat {textbf {x}}}}$ . Si este valor es menor ${displaystyle 0.03}$ , el punto clave candidato es descartado. De lo contrario se mantiene, con la ubicación de escala-espacio final ${displaystyle {textbf {y}}+{hat {textbf {x}}}}$ , donde ${displaystyle {textbf {y}}}$ es la ubicación original del punto clave.

Eliminar respuestas límite

La función DoG tendrá fuertes respuestas a lo largo de los bordes, incluso si el punto clave candidato no es resistente a pequeñas cantidades de ruido. Por lo tanto, para aumentar la estabilidad, debemos eliminar los puntos clave que tienen ubicaciones mal determinadas pero que tienen respuestas de borde altas.

Para picos mal definidos en la función DoG, la curvatura principal a lo largo del borde sería mucho mayor que la curvatura principal a lo largo del mismo. Encontrar estas curvaturas principales equivale a resolver los valores propios de la matriz de Hesse de segundo orden, H:

${displaystyle {textbf {H}}={begin{bmatrix}D_{xx}&D_{xy}D_{xy}&D_{yy}end{bmatrix}}}$

Los eigenvalues de H son proporcionales a las principales curvaturas de D. Resulta que la relación de los dos eigenvalues, dicen ${displaystyle alpha }$ es el más grande, y ${displaystyle beta }$ el más pequeño, con relación ${displaystyle r=alpha /beta }$ , es suficiente para los propósitos de SIFT. El rastro de H, es decir, ${displaystyle D_{xx}+D_{yy}}$ , nos da la suma de los dos eigenvalues, mientras que su determinante, es decir, ${displaystyle D_{xx}D_{yy}-D_{xy}^{2}}$ , produce el producto. La relación ${displaystyle {text{R}}=operatorname {Tr} ({textbf {H}})^{2}/operatorname {Det} ({textbf {H}})}$ se puede demostrar que es igual a ${displaystyle (r+1)^{2}/r}$ , que depende sólo de la relación de los eigenvalues en lugar de sus valores individuales. R es mínimo cuando los eigenvalues son iguales entre sí. Por lo tanto, cuanto mayor es la diferencia absoluta entre los dos eigenvalues, que equivale a una diferencia absoluta más alta entre las dos curvaturas principales de D, mayor es el valor de R. De ahí que, para alguna relación de valor eigenvalo umbral ${displaystyle r_{text{th}}}$ , si R para un punto clave candidato es más grande que ${displaystyle (r_{text{th}}+1)^{2}/r_{text{th}}}$ , ese punto clave está mal localizado y por lo tanto rechazado. El nuevo enfoque utiliza ${displaystyle r_{text{th}}=10}$ .

Este paso de procesamiento para suprimir respuestas en los bordes es una transferencia de un enfoque correspondiente en el operador Harris para la detección de esquinas. La diferencia es que la medida del umbral se calcula a partir de la matriz de Hesse en lugar de una matriz de segundo momento.

Asignación de orientación

En este paso, a cada punto clave se le asigna una o más orientaciones basadas en las direcciones del gradiente de la imagen local. Este es el paso clave para lograr la invariancia de la rotación, ya que el descriptor del punto clave se puede representar en relación con esta orientación y, por lo tanto, lograr la invariancia de la rotación de la imagen.

Primero, la imagen de Gaussian-smoothed ${displaystyle Lleft(x,y,sigma right)}$ en la escala del punto clave ${displaystyle sigma }$ se toma para que todas las computaciones se realicen de manera invariable. Para una muestra de imagen ${displaystyle Lleft(x,yright)}$ a escala ${displaystyle sigma }$ , la magnitud gradiente, ${displaystyle mleft(x,yright)}$ , y orientación, ${displaystyle theta left(x,yright)}$ , son precomputados usando pixel diferencias:

${displaystyle mleft(x,yright)={sqrt {left(Lleft(x+1,yright)-Lleft(x-1,yright)right)^{2}+left(Lleft(x,y+1right)-Lleft(x,y-1right)right)^{2}}}}$

${displaystyle theta left(x,yright)=mathrm {atan2} left(Lleft(x,y+1right)-Lleft(x,y-1right),Lleft(x+1,yright)-Lleft(x-1,yright)right)}$

Los cálculos de magnitud y dirección para el gradiente se hacen por cada píxel en una región vecina alrededor del punto clave en la imagen azulada de Gaussian L. Se forma un histograma de orientación con 36 cubos, con cada cubo cubriendo 10 grados. Cada muestra en la ventana vecina añadida a un cubo de histograma es ponderada por su magnitud gradiente y por una ventana circular con peso gausiano con una ${displaystyle sigma }$ que es 1,5 veces la de la escala del punto clave. Los picos de este histograma corresponden a las orientaciones dominantes. Una vez que se llena el histograma, las orientaciones correspondientes al pico más alto y los picos locales que están dentro del 80% de los picos más altos se asignan al punto clave. En el caso de que se asignen múltiples orientaciones, se crea un punto clave adicional que tiene la misma ubicación y escala que el punto clave original para cada orientación adicional.

Descriptor de puntos clave

Los pasos anteriores encontraron ubicaciones de puntos clave en escalas particulares y les asignaron orientaciones. Esto aseguró la invariancia en la ubicación, escala y rotación de la imagen. Ahora queremos calcular un vector descriptor para cada punto clave de modo que el descriptor sea altamente distintivo y parcialmente invariante a las variaciones restantes, como iluminación, punto de vista 3D, etc. Este paso se realiza en la imagen más cercana en escala al punto clave. escala s.

Primero se crea un conjunto de histogramas de orientación en barrios de 4×4 pixel con 8 bins cada uno. Estos histogramas se calculan a partir de valores de magnitud y orientación de muestras en una región de 16×16 alrededor del punto clave tal que cada histograma contiene muestras de una subregión de 4×4 de la región del vecindario original. Las magnitudes y orientaciones gradientes de la imagen se muestran alrededor de la ubicación del punto clave, utilizando la escala del punto clave para seleccionar el nivel de Difunción Gausiana para la imagen. Para lograr la invariancia de la orientación, las coordenadas del descriptor y las orientaciones gradientes se rotan en relación con la orientación de puntos clave. Las magnitudes son más ponderadas por una función Gausiana con ${displaystyle sigma }$ igual a la mitad del ancho de la ventana descriptor. El descriptor se convierte entonces en un vector de todos los valores de estos histogramas. Puesto que hay 4 × 4 = 16 histogramas cada uno con 8 bins el vector tiene 128 elementos. Este vector se normaliza a la longitud de la unidad para mejorar la invariancia a los cambios de afinidad en la iluminación. Para reducir los efectos de la iluminación no lineal se aplica un umbral de 0.2 y el vector se normaliza de nuevo. El proceso de umbral, también conocido como clamping, puede mejorar los resultados coincidentes incluso cuando los efectos de iluminación no lineales no están presentes. El umbral de 0,2 fue elegido empíricamente, y mediante la sustitución del umbral fijo por uno calculado sistemáticamente, se pueden mejorar los resultados correspondientes.

Aunque la dimensión del descriptor, es decir, 128, parece alta, los descriptores con una dimensión inferior a esta no funcionan tan bien en toda la gama de tareas de comparación y el coste computacional sigue siendo bajo debido al BBF aproximado (ver más abajo).) método utilizado para encontrar el vecino más cercano. Los descriptores más largos siguen funcionando mejor, pero no mucho, y existe el peligro adicional de una mayor sensibilidad a la distorsión y la oclusión. También se muestra que la precisión de coincidencia de características es superior al 50% para cambios de punto de vista de hasta 50 grados. Por lo tanto, los descriptores SIFT son invariantes ante cambios afines menores. Para probar el carácter distintivo de los descriptores SIFT, la precisión de la coincidencia también se mide frente a un número variable de puntos clave en la base de datos de prueba, y se muestra que la precisión de la coincidencia disminuye sólo muy ligeramente para tamaños de bases de datos muy grandes, lo que indica que las características de SIFT son altamente distintivas.

Comparación de las funciones SIFT con otras funciones locales

Se ha realizado un amplio estudio sobre la evaluación del rendimiento de diferentes descriptores locales, incluido SIFT, utilizando una variedad de detectores. Los principales resultados se resumen a continuación:

Las características de SIFT y SIFT como GLOH exhiben las máximas imprecisiones (valores reales) para una transformación afinada de 50 grados. Después de este límite de transformación, los resultados comienzan a ser poco fiables.
La distintividad de los descriptores se mide resumiendo los eigenvalues de los descriptores, obtenidos por el análisis de componentes principales de los descriptores normalizados por su varianza. Esto corresponde a la cantidad de varianza captada por diferentes descriptores, por lo tanto, a su distintividad. PCA-SIFT (Principal Components Analysis applied to SIFT descriptors), GLOH and SIFT features give the highest values.
Los descriptores basados en SIFT superan a otros descriptores locales contemporáneos tanto en escenas texturadas como estructuradas, con la diferencia de rendimiento mayor en la escena texturada.
Para los cambios de escala en el rango 2–2.5 y las rotaciones de imágenes en el rango de 30 a 45 grados, los descriptores basados en SIFT y SIFT de nuevo superan a otros descriptores locales contemporáneos con contenido de escena tanto texturado como estructurado.
La introducción del desdibujo afecta a todos los descriptores locales, especialmente los basados en los bordes, como el contexto de la forma, porque los bordes desaparecen en el caso de un fuerte desdibujo. Pero GLOH, PCA-SIFT y SIFT todavía funcionaron mejor que los otros. Esto también es cierto para la evaluación en el caso de cambios de iluminación.

Las evaluaciones realizadas sugieren firmemente que los descriptores basados en SIFT, que se basan en regiones, son los más sólidos y distintivos y, por lo tanto, son los más adecuados para la comparación de características. Sin embargo, en este estudio no se han evaluado los descriptores de características más recientes, como SURF.

Más tarde se demostró que SURF tiene un rendimiento similar a SIFT, pero al mismo tiempo es mucho más rápido. Otros estudios concluyen que cuando la velocidad no es crítica, SIFT supera a SURF. Específicamente, sin tener en cuenta los efectos de discretización, el descriptor de imagen puro en SIFT es significativamente mejor que el descriptor de imagen puro en SURF, mientras que los extremos del espacio de escala del determinante del hessiano subyacente al detector de puntos de interés puro en SURF constituyen puntos de interés significativamente mejores en comparación con el descriptor de imagen puro en SIFT. Extremos del espacio de escala del Laplaciano para los cuales el detector de puntos de interés en SIFT constituye una aproximación numérica.

El rendimiento de la comparación de imágenes mediante descriptores SIFT se puede mejorar en el sentido de lograr puntuaciones de eficiencia más altas y puntuaciones de precisión 1 más bajas reemplazando los extremos del espacio de escala del operador de diferencia de gaussianos en SIFT original por el espacio de escala extremos del determinante del hessiano, o más generalmente considerando una familia más general de puntos de interés de espacio de escala generalizados.

Recientemente, se ha propuesto una ligera variación del descriptor que emplea una cuadrícula de histograma irregular que mejora significativamente su rendimiento. En lugar de utilizar una cuadrícula de 4 × 4 de contenedores de histograma, todos los contenedores se extienden hasta el centro de la entidad. Esto mejora la solidez del descriptor para escalar cambios.

Se demostró que el descriptor SIFT-Rank mejora el rendimiento del descriptor SIFT estándar para la coincidencia de características afines. Un descriptor de rango SIFT se genera a partir de un descriptor SIFT estándar, estableciendo cada contenedor de histograma en su rango en una matriz ordenada de contenedores. La distancia euclidiana entre los descriptores de rango SIFT es invariante ante cambios monótonos arbitrarios en los valores del contenedor del histograma y está relacionada con el coeficiente de correlación de rango de Spearman.

Aplicaciones

Reconocimiento de objetos mediante funciones SIFT

Dada la capacidad de SIFT para encontrar puntos clave distintivos que son invariantes a la ubicación, escala y rotación, y robustos a transformaciones afines (cambios de escala, rotación, corte y posición) y cambios en la iluminación, son utilizables para reconocimiento de objetos. Los pasos se detallan a continuación.

En primer lugar, las características SIFT se obtienen de la imagen de entrada utilizando el algoritmo descrito anteriormente.
Estas características se corresponden con la base de datos de características SIFT obtenida de las imágenes de entrenamiento. Esta característica coincidente se hace a través de un enfoque vecino más cercano basado en Euclidean-distance. Para aumentar la robustez, los partidos son rechazados por aquellos puntos clave para los cuales la proporción de la distancia vecina más cercana a la distancia vecina de segundo nivel es mayor que 0.8. Esto descarta muchos de los falsos partidos que surgen del desorden de fondo. Por último, para evitar la búsqueda costosa necesaria para encontrar el vecino más cercano basado en Euclidean-distance, se utiliza un algoritmo aproximado llamado el algoritmo mejor-bin-primer. Este es un método rápido para devolver al vecino más cercano con alta probabilidad, y puede dar velocidad por factor de 1000 mientras encuentra al vecino más cercano (de interés) 95% del tiempo.
Aunque la prueba de relación de distancia descrita anteriormente descarta muchos de los falsos partidos que surgen del desorden de fondo, todavía tenemos partidos que pertenecen a diferentes objetos. Por lo tanto, para aumentar la robustez para la identificación de objetos, queremos agrupar las características que pertenecen al mismo objeto y rechazar los partidos que quedan fuera en el proceso de agrupación. Esto se hace utilizando la transformación Hough. Esto identificará grupos de características que voten por el mismo objeto pose. Cuando se encuentran grupos de características para votar por la misma postura de un objeto, la probabilidad de que la interpretación sea correcta es mucho mayor que para cualquier característica única. Cada punto clave vota por el conjunto de posturas de objeto que son consistentes con la ubicación, escala y orientación del punto clave. Bins que acumulan por lo menos 3 votos se identifican como partidos candidatos objeto/pose.
Para cada grupo de candidatos, se obtiene una solución menos cuadrada para los mejores parámetros estimados de proyección de afina que relacionan la imagen de entrenamiento con la imagen de entrada. Si la proyección de un punto clave a través de estos parámetros se encuentra dentro de la mitad del rango de error que se utilizó para los parámetros en los contenedores de transformación Hough, se mantiene el partido de punto clave. Si quedan menos de 3 puntos después de descartar los outliers para un bin, entonces el partido del objeto es rechazado. El ajuste menos cuadrado se repite hasta que no se produzcan más rechazos. Esto funciona mejor para el reconocimiento de superficie planar que el reconocimiento de objetos 3D ya que el modelo affine ya no es preciso para objetos 3D.
En esta revista, los autores propusieron un nuevo enfoque para utilizar descriptores SIFT para múltiples fines de detección de objetos. El enfoque propuesto de detección de múltiples objetos se prueba en imágenes aéreas y satelitales.

Las características de SIFT se pueden aplicar esencialmente a cualquier tarea que requiera la identificación de lugares de coincidencia entre imágenes. Se ha trabajado en aplicaciones como el reconocimiento de determinadas categorías de objetos en imágenes 2D, reconstrucción 3D, seguimiento de movimiento y segmentación, localización de robots, costura de imagen y calibración epipolar. Algunas de ellas se examinan con más detalle a continuación.

Localización y mapeo de robots

En esta aplicación se utiliza un sistema estéreo trinocular para determinar estimaciones 3D para ubicaciones de puntos clave. Los puntos clave se utilizan sólo cuando aparecen en las 3 imágenes con disparidades consistentes, dando lugar a muy pocos outliers. A medida que el robot se mueve, se localiza utilizando fósforos de características en el mapa 3D existente, y luego añade funciones al mapa al tiempo que actualiza sus posiciones 3D utilizando un filtro Kalman. Esto proporciona una solución robusta y precisa al problema de la localización de robots en entornos desconocidos. Los solucionadores 3D recientes aprovechan el uso de direcciones de puntos clave para resolver geometría trinocular de tres puntos clave y posición absoluta de sólo dos puntos clave, una medición a menudo ignorada pero útil disponible en SIFT. Estas mediciones de orientación reducen el número de correspondencias requeridas, aumentando aún más la robustez exponencialmente.

Panorama cosido

La función SIFT se puede utilizar en la unión de imágenes para una reconstrucción panorámica totalmente automatizada a partir de imágenes no panorámicas. Las características SIFT extraídas de las imágenes de entrada se comparan entre sí para encontrar k vecinos más cercanos para cada característica. Estas correspondencias se utilizan luego para encontrar m imágenes candidatas que coincidan para cada imagen. Luego se calculan las homografías entre pares de imágenes utilizando RANSAC y se utiliza un modelo probabilístico para la verificación. Debido a que no hay restricciones en las imágenes de entrada, la búsqueda de gráficos se aplica para encontrar componentes conectados de coincidencias de imágenes de modo que cada componente conectado corresponda a un panorama. Finalmente, para cada paquete de componentes conectados, se realiza un ajuste para resolver los parámetros conjuntos de la cámara y el panorama se representa mediante combinación multibanda. Debido al enfoque de reconocimiento de objetos inspirado en SIFT para la unión panorámica, el sistema resultante es insensible al orden, orientación, escala e iluminación de las imágenes. Las imágenes de entrada pueden contener múltiples panoramas e imágenes de ruido (algunas de las cuales pueden ni siquiera ser parte de la imagen compuesta), y las secuencias panorámicas se reconocen y representan como salida.

Modelado, reconocimiento y seguimiento de escena 3D

Esta aplicación utiliza funciones SIFT para el reconocimiento de objetos 3D y el modelado 3D en el contexto de realidad aumentada, en el que objetos sintéticos con pose precisa se superponen a imágenes reales. La comparación SIFT se realiza para varias imágenes 2D de una escena u objeto tomadas desde diferentes ángulos. Esto se utiliza con el ajuste del paquete inicializado desde una matriz esencial o tensor trifocal para construir un modelo 3D disperso de la escena vista y recuperar simultáneamente las poses de la cámara y los parámetros de calibración. Luego se definen la posición, orientación y tamaño del objeto virtual en relación con el marco de coordenadas del modelo recuperado. Para el movimiento de coincidencias en línea, las características SIFT se extraen nuevamente del cuadro de video actual y se comparan con las características ya calculadas para el modelo mundial, lo que da como resultado un conjunto de correspondencias de 2D a 3D. Estas correspondencias se utilizan luego para calcular la pose actual de la cámara para la proyección virtual y el renderizado final. Se utiliza una técnica de regularización para reducir la fluctuación en la proyección virtual. El uso de direcciones SIFT también se ha utilizado para aumentar la solidez de este proceso. También se han evaluado extensiones 3D de SIFT para un verdadero reconocimiento y recuperación de objetos 3D.

Descriptores similares a 3D SIFT para el reconocimiento de acciones humanas

Se han estudiado las extensiones del descriptor SIFT a datos espacio-temporales de 2+1 dimensiones en el contexto del reconocimiento de acciones humanas en secuencias de vídeo. El cálculo de histogramas locales dependientes de la posición en el algoritmo SIFT 2D se extiende de dos a tres dimensiones para describir características SIFT en un dominio espacio-temporal. Para su aplicación al reconocimiento de acciones humanas en una secuencia de vídeo, el muestreo de los vídeos de entrenamiento se lleva a cabo en puntos de interés espacio-temporales o en ubicaciones, tiempos y escalas determinados aleatoriamente. Luego, las regiones espacio-temporales alrededor de estos puntos de interés se describen utilizando el descriptor 3D SIFT. Luego, estos descriptores se agrupan para formar un modelo de bolsa de palabras espacio-temporal. Los descriptores 3D SIFT extraídos de los vídeos de prueba se comparan con estas palabras para clasificar la acción humana.

Los autores reportan resultados mucho mejores con su enfoque de descriptor 3D SIFT que con otros enfoques como descriptores 2D SIFT simples y Magnitud de gradiente.

Análisis del cerebro humano en imágenes de resonancia magnética 3D

La técnica de Morfometría basada en características (FBM) utiliza extremos en una diferencia de espacio de escala gaussiano para analizar y clasificar imágenes de resonancia magnética (MRI) 3D del cerebro humano. FBM modela la imagen probabilísticamente como un collage de características independientes, condicionadas a la geometría de la imagen y las etiquetas de grupo, p. sujetos sanos y sujetos con enfermedad de Alzheimer (EA). Las características primero se extraen en imágenes individuales a partir de una diferencia 4D del espacio de escala gaussiano, luego se modelan en términos de su apariencia, geometría y estadísticas de coocurrencia grupal en un conjunto de imágenes. FBM se validó en el análisis de la EA utilizando un conjunto de aproximadamente 200 resonancias magnéticas volumétricas del cerebro humano, identificando automáticamente indicadores establecidos de la EA en el cerebro y clasificando la EA leve en nuevas imágenes con una tasa del 80 %.

Métodos competitivos

Los métodos competitivos para el reconocimiento de objetos invariantes de escala en condiciones de desorden/oclusión parcial incluyen los siguientes.

RIFT es una generalización invariante de rotación de SIFT. El descriptor RIFT se construye utilizando parches circulares normalizados divididos en anillos concéntricos de igual ancho y dentro de cada anillo se calcula un histograma de orientación de gradiente. Para mantener la invariancia de la rotación, la orientación se mide en cada punto en relación con la dirección que apunta hacia afuera desde el centro.

RootSIFT es una variante de SIFT que modifica la normalización del descriptor. Puesto que los descriptores SIFT son histogramas (y como tales distribuciones de probabilidad), emplear distancia Euclideana para determinar su similitud no es una opción natural. Comparar tales descriptores usando medidas de similitud adaptadas a distribuciones de probabilidad como el coeficiente Bhattacharyya (también conocido como el núcleo de Hellinger) resulta ser más beneficioso. Para este propósito, el original ${displaystyle ell ^{2}}$ descriptor normalizado es primero ${displaystyle ell ^{1}}$ normalizado y la raíz cuadrada de cada elemento se calcula seguido por ${displaystyle ell ^{2}}$ renormalización. Después de estas manipulaciones algebraicas, los descriptores RootSIFT se pueden comparar normalmente usando la distancia Euclideana que equivale a utilizar el kernel de Hellinger en los descriptores SIFT originales. Este esquema de normalización denominado “L1-sqrt” fue introducido previamente para la normalización de bloques de características HOG cuya variante descriptor de bloque rectangular (R-HOG) es conceptualmente similar al descriptor SIFT.

G-RIF: Característica invariante robusta generalizada es un descriptor de contexto general que codifica la orientación de los bordes, la densidad de los bordes y la información de tono en una forma unificada que combina información perceptiva con codificación espacial. El esquema de reconocimiento de objetos utiliza votación basada en el contexto vecino para estimar modelos de objetos.

"SURF: Funciones robustas y aceleradas" es un detector/descriptor de puntos de interés invariantes de escala y rotación de alto rendimiento que se aproxima o incluso supera los esquemas propuestos anteriormente con respecto a la repetibilidad, la distinción y la robustez. SURF se basa en imágenes integrales para convoluciones de imágenes para reducir el tiempo de cálculo, se basa en las fortalezas de los principales detectores y descriptores existentes (utilizando una medida rápida basada en una matriz de Hesse para el detector y un descriptor basado en distribución). Describe una distribución de las respuestas de las ondas de Haar dentro de la vecindad del punto de interés. Se utilizan imágenes integrales para aumentar la velocidad y solo se utilizan 64 dimensiones, lo que reduce el tiempo de cálculo y comparación de características. El paso de indexación se basa en el signo del laplaciano, lo que aumenta la velocidad de coincidencia y la solidez del descriptor.

PCA-SIFT y GLOH son variantes de SIFT. El descriptor PCA-SIFT es un vector de gradientes de imagen en las direcciones xey calculado dentro de la región de soporte. La región de gradiente se muestrea en ubicaciones de 39 × 39, por lo tanto, el vector tiene una dimensión de 3042. La dimensión se reduce a 36 con PCA. El histograma de orientación de ubicación de gradiente (GLOH) es una extensión del descriptor SIFT diseñado para aumentar su robustez y distinción. El descriptor SIFT se calcula para una cuadrícula de ubicación log-polar con tres contenedores en dirección radial (el radio establecido en 6, 11 y 15) y 8 en dirección angular, lo que da como resultado 17 contenedores de ubicación. El contenedor central no está dividido en direcciones angulares. Las orientaciones de gradiente se cuantifican en 16 bins, lo que da como resultado un histograma de 272 bins. El tamaño de este descriptor se reduce con PCA. La matriz de covarianza para PCA se estima en parches de imágenes recopilados de varias imágenes. Los 128 vectores propios más grandes se utilizan para la descripción.

Gauss-SIFT es un descriptor de imagen puro definido mediante la realización de todas las mediciones de imagen subyacentes al descriptor de imagen pura en SIFT por respuestas derivadas gausianas en lugar de aproximaciones derivadas en una pirámide de imagen tal como se hace en SIFT regular. De esta manera, los efectos de discretización sobre el espacio y la escala pueden reducirse a un mínimo permitiendo que los descriptores de imagen sean potencialmente más precisos. En Lindeberg (2015) tales descriptores de imagen pura Gauss-SIFT se combinaron con un conjunto de puntos de interés escala-espacio generalizados que comprenden el Laplaciano del Gaussian, el determinante del Hessian, cuatro nuevas medidas de fuerza de características hesianas no firmadas o firmadas, así como los puntos de interés Harris-Laplace y Shi-and-Tomasi. En una extensa evaluación experimental sobre un conjunto de datos de pósters que incluye múltiples vistas de 12 pósters sobre las transformaciones de escalado hasta un factor de 6 y las variaciones de la dirección de visualización hasta un ángulo inclinado de 45 grados, se demostró que el aumento sustancial en el rendimiento de la combinación de imágenes (puntos de mayor eficiencia y puntuaciones de 1 precisión inferiores) podría obtenerse reemplazando Laplacian de puntos de interés gausianos por determinante de los puntos de interés de Hessssian. Puesto que los puntos de interés diferenciados de los gaussianos constituyen una aproximación numérica de Laplacian de los puntos de interés gaussianos, esto demuestra que un aumento sustancial en el rendimiento coincidente es posible reemplazando los puntos de interés diferenciados de los gausianos en SIFT por determinante de los puntos de interés hesiano. Aumento adicional del rendimiento se puede obtener además considerando la medida de fuerza de características hesianas no firmada $0,{mbox{or 0 otherwise}}}" xmlns="http://www.w3.org/1998/Math/MathML">D1L=Det⁡ ⁡ HL− − krastro2⁡ ⁡ HLsiDet⁡ ⁡ HL− − krastro2⁡ ⁡ HL■0o 0 de otro modo{displaystyle D_{1}L=operatorname {det} HL-k,operatorname {trace} ^{2}HL,{mbox{if}operatorname {det} HL-k,operatorname {trace} ^{2}HL confidencial0,{mbox{or 0 otherwise}}0,{mbox{or 0 otherwise}}}" aria-hidden="true" class="mwe-math-fallback-image-inline mw-invert" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/552e8801cef2c539aceb7b254bb02938d94c49de" style="vertical-align: -0.671ex; width:72.856ex; height:3.009ex;"/>$ . Una comparación cuantitativa entre el descriptor Gauss-SIFT y el correspondiente descriptor Gauss-SURF también mostró que Gauss-SIFT generalmente realiza significativamente mejor que Gauss-SURF para un gran número de diferentes detectores de puntos de interés escala-espacio. Por lo tanto, este estudio muestra que la discretización discrepante afecta al descriptor de imagen pura en SIFT es significativamente mejor que el descriptor de imagen pura en SURF, mientras que el detector de puntos de interés subyacente en SURF, que se puede ver como aproximación numérica a escala-espacio extremo del determinante del Hessian, es significativamente mejor que el detector de puntos de interés subyacente en SIFT.

Wagner y cols. desarrolló dos algoritmos de reconocimiento de objetos especialmente diseñados teniendo en cuenta las limitaciones de los teléfonos móviles actuales. En contraste con el enfoque SIFT clásico, Wagner et al. Utilice el detector de esquinas FAST para la detección de características. El algoritmo también distingue entre la fase de preparación fuera de línea, donde las funciones se crean en diferentes niveles de escala, y la fase en línea, donde las funciones solo se crean en el nivel de escala fijo actual de la imagen de la cámara del teléfono. Además, las funciones se crean a partir de un tamaño de parche fijo de 15 × 15 píxeles y forman un descriptor SIFT con solo 36 dimensiones. El enfoque se ha ampliado aún más mediante la integración de un árbol de vocabulario escalable en el proceso de reconocimiento. Esto permite el reconocimiento eficiente de una mayor cantidad de objetos en los teléfonos móviles. El enfoque está restringido principalmente por la cantidad de RAM disponible.

KAZE y A-KAZE (Funciones KAZE y Funciones Kaze Aceleradas) es un nuevo método de descripción y detección de características 2D que funciona mejor en comparación con SIFT y SURF. Gana mucha popularidad debido a su código fuente abierto. KAZE fue realizada originalmente por Pablo F. Alcantarilla, Adrien Bartoli y Andrew J. Davison.

Contenido relacionado

Historia de la cámara
La historia de la cámara comenzó incluso antes de la introducción de la fotografía. Las cámaras evolucionaron desde la cámara oscura a través de muchas...
Tubo de vacío
Un tubo de vacío, tubo de electrones o válvula termoiónica, es un dispositivo que controla el flujo de corriente eléctrica en un alto vacío entre...
Señales de humo
La señal de humo es una de las formas más antiguas de comunicación a larga distancia. Es una forma de comunicación visual utilizada a larga distancia. En...
Más resultados...
Te puede interesar