Segmentación de imagen

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En el procesamiento de imágenes digitales y la visión por computadora, la segmentación de imágenes es el proceso de dividir una imagen digital en múltiples segmentos de imagen, también conocidos como regiones de imagen. b> o objetos de imagen (conjuntos de píxeles). El objetivo de la segmentación es simplificar y/o cambiar la representación de una imagen en algo que sea más significativo y más fácil de analizar. La segmentación de imágenes se utiliza normalmente para localizar objetos y límites (líneas, curvas, etc.) en imágenes. Más precisamente, la segmentación de imágenes es el proceso de asignar una etiqueta a cada píxel de una imagen de modo que los píxeles con la misma etiqueta compartan ciertas características.

El resultado de la segmentación de imágenes es un conjunto de segmentos que en conjunto cubren toda la imagen, o un conjunto de contornos extraídos de la imagen (ver detección de bordes). Cada uno de los píxeles de una región es similar con respecto a alguna característica o propiedad calculada. , como el color, la intensidad o la textura. Las regiones adyacentes tienen un color significativamente diferente con respecto a las mismas características. Cuando se aplica a una pila de imágenes, algo típico en imágenes médicas, los contornos resultantes después de la segmentación de la imagen se pueden usar para crear reconstrucciones 3D con la ayuda de algoritmos de reconstrucción geométrica como cubos en marcha.

Aplicaciones

Algunas de las aplicaciones prácticas de la segmentación de imágenes son:

Recuperación de imagen basada en contenidos
Visión de la máquina
Imágenes médicas, incluyendo imágenes de volumen hechas de tomografía computarizada y resonancia magnética.
- Localizar tumores y otras patologías
- Volumen de tejido de medición
- Diagnóstico, estudio de la estructura anatómica
- Planificación quirúrgica
- Simulación de cirugía virtual
- Navegación intracirugía
- Radioterapia
Detección de objetos
- Detección peatonal
- Detección facial
- Detección de luz de freno
- Localizar objetos en imágenes satelitales (carreteras, bosques, cultivos, etc.)
Tareas de reconocimiento
- Reconocimiento facial
- Reconocimiento de huellas digitales
- Iris recognition
- Artículo prohibido en los puestos de seguridad del aeropuerto
Sistemas de control de tráfico
Vigilancia de vídeo
Co-segmentación y localización de acciones

Se han desarrollado varios algoritmos y técnicas de propósito general para la segmentación de imágenes. Para que sean útiles, estas técnicas normalmente deben combinarse con el conocimiento específico de un dominio para resolver eficazmente los problemas de segmentación del dominio.

Clases de técnicas de segmentación

Hay dos clases de técnicas de segmentación.

Criterios de visión computacional
Técnicas basadas en la inteligencia artificial

Grupos de segmentación de imágenes

Semántica segmentación es un enfoque que detecta, para cada pixel, la clase de pertenencia. Por ejemplo, en una figura con muchas personas, todos los píxeles pertenecientes a personas tendrán la misma id de clase y los píxeles en el fondo serán clasificados como fondo.
Serie de sesiones de instalación es un enfoque que identifica, por cada pixel, la instancia de pertenencia específica del objeto. Detecta cada objeto distintivo de interés en la imagen. Por ejemplo, cuando cada persona en una figura se segmenta como objeto individual.
segmentación panoptica combina segmentación semántica y de instancia. Como segmentación semántica, la segmentación panóptica es un enfoque que identifica, para cada píxel, la clase de pertenencia. Además, como por ejemplo la segmentación, la segmentación panóptica distingue diferentes instancias de la misma clase.

Umbral

El método más simple de segmentación de imágenes se llama método de umbralización. Este método se basa en un nivel de clip (o un valor de umbral) para convertir una imagen en escala de grises en una imagen binaria.

La clave de este método es seleccionar el valor umbral (o valores cuando se seleccionan múltiples niveles). En la industria se utilizan varios métodos populares, incluido el método de máxima entropía, el umbral de histograma equilibrado, el método de Otsu (varianza máxima) y la agrupación de k-medias.

Recientemente, se han desarrollado métodos para establecer un umbral en las imágenes de tomografía computarizada (TC). La idea clave es que, a diferencia del método de Otsu, los umbrales se derivan de las radiografías en lugar de la imagen (reconstruida).

Los nuevos métodos sugirieron el uso de umbrales no lineales multidimensionales basados en reglas difusas. En estos trabajos, la decisión sobre la pertenencia de cada píxel a un segmento se basa en reglas multidimensionales derivadas de lógica difusa y algoritmos evolutivos basados en el entorno y la aplicación de iluminación de la imagen.

Métodos de agrupación

Imagen de origen.

Imagen después de correr k- Significa con k = 16. Tenga en cuenta que una técnica común para mejorar el rendimiento de imágenes grandes es reducir la imagen, calcular los racimos, y luego reasignar los valores a la imagen más grande si es necesario.

El algoritmo K-means es una técnica iterativa que se utiliza para dividir una imagen en K grupos. El algoritmo básico es

Pick K centros de racimo, ya sea aleatorio o basado en algún método heurístico, por ejemplo K-means++
Asignar cada píxel en la imagen al cluster que minimiza la distancia entre el píxel y el centro del cluster
Recomputa los centros de racimo promediando todos los píxeles en el clúster
Repita los pasos 2 y 3 hasta que se alcance la convergencia (es decir, no hay píxeles que cambien los racimos)

En este caso, la distancia es la diferencia al cuadrado o absoluta entre un píxel y el centro de un grupo. La diferencia suele basarse en el color, la intensidad, la textura y la ubicación del píxel, o en una combinación ponderada de estos factores. K se puede seleccionar manualmente, aleatoriamente o mediante una heurística. Se garantiza que este algoritmo convergerá, pero es posible que no devuelva la solución óptima. La calidad de la solución depende del conjunto inicial de clusters y del valor de K.

El algoritmo Mean Shift es una técnica que se utiliza para dividir una imagen en un número desconocido a priori de grupos. Esto tiene la ventaja de no tener que comenzar con una estimación inicial de dicho parámetro, lo que lo convierte en una mejor solución general para casos más diversos.

Movimiento y segmentación interactiva

La segmentación basada en movimiento es una técnica que se basa en el movimiento de la imagen para realizar la segmentación.

La idea es simple: observar las diferencias entre un par de imágenes. Suponiendo que el objeto de interés se esté moviendo, la diferencia será exactamente ese objeto.

Mejorando esta idea, Kenney et al. propuesta de segmentación interactiva [2]. Utilizan un robot para empujar objetos con el fin de generar la señal de movimiento necesaria para la segmentación basada en movimiento.

La segmentación interactiva sigue el marco de percepción interactiva propuesto por Dov Katz [3] y Oliver Brock [4].

Otra técnica que se basa en el movimiento es la segmentación de movimiento rígido.

Métodos basados en compresión

Los métodos basados en compresión postulan que la segmentación óptima es aquella que minimiza, sobre todas las segmentaciones posibles, la longitud de codificación de los datos. La conexión entre estos dos conceptos es que la segmentación intenta encontrar patrones en una imagen y cualquier regularidad en la imagen se puede utilizar para comprimirla. El método describe cada segmento por su textura y forma de límite. Cada uno de estos componentes se modela mediante una función de distribución de probabilidad y su longitud de codificación se calcula de la siguiente manera:

La codificación de límites aprovecha el hecho de que las regiones de imágenes naturales tienden a tener un contorno suave. Este anterior es utilizado por la codificación Huffman para codificar el código de cadena diferencia de los contornos en una imagen. Así, el más suave es un límite, la longitud de codificación más corta que alcanza.
La textura está codificada por compresión perdida de una manera similar al principio de longitud de descripción mínima (MDL), pero aquí la longitud de los datos dados el modelo se aproxima por el número de muestras veces la entropía del modelo. La textura en cada región es modelada por una distribución normal multivariada cuya entropía tiene una expresión de forma cerrada. Una propiedad interesante de este modelo es que la entropía estimada vincula la verdadera entropía de los datos de arriba. Esto se debe a que entre todas las distribuciones con una media determinada y covariancia, la distribución normal tiene la mayor entropía. Así, la verdadera longitud de codificación no puede ser más que lo que el algoritmo intenta minimizar.

Para cualquier segmentación dada de una imagen, este esquema produce la cantidad de bits necesarios para codificar esa imagen según la segmentación dada. Así, entre todas las segmentaciones posibles de una imagen, el objetivo es encontrar la segmentación que produzca la longitud de codificación más corta. Esto se puede lograr mediante un método de agrupamiento aglomerativo simple. La distorsión en la compresión con pérdida determina la tosquedad de la segmentación y su valor óptimo puede diferir para cada imagen. Este parámetro se puede estimar heurísticamente a partir del contraste de texturas en una imagen. Por ejemplo, cuando las texturas de una imagen son similares, como en las imágenes de camuflaje, se requiere una sensibilidad más fuerte y, por tanto, una cuantificación más baja.

Métodos basados en histograma

Los métodos basados en histogramas son muy eficientes en comparación con otros métodos de segmentación de imágenes porque normalmente requieren solo un paso a través de los píxeles. En esta técnica, se calcula un histograma a partir de todos los píxeles de la imagen y los picos y valles del histograma se utilizan para localizar los grupos en la imagen. Se puede utilizar el color o la intensidad como medida.

Una mejora de esta técnica es aplicar recursivamente el método de búsqueda de histograma a grupos de la imagen para dividirlos en grupos más pequeños. Esta operación se repite con grupos cada vez más pequeños hasta que no se formen más grupos.

Una desventaja del método de búsqueda de histograma es que puede resultar difícil identificar picos y valles significativos en la imagen.

Los enfoques basados en histogramas también se pueden adaptar rápidamente para aplicarlos a múltiples fotogramas, manteniendo al mismo tiempo su eficiencia de una sola pasada. El histograma se puede realizar de varias formas cuando se consideran varios fotogramas. El mismo enfoque que se adopta con un cuadro se puede aplicar a varios y, una vez fusionados los resultados, es más probable que se distingan los picos y valles que antes eran difíciles de identificar. El histograma también se puede aplicar por píxel, donde la información resultante se utiliza para determinar el color más frecuente para la ubicación del píxel. Este enfoque segmenta basándose en objetos activos y un entorno estático, lo que da como resultado un tipo diferente de segmentación útil en el seguimiento de vídeo.

Detección de bordes

La detección de bordes es un campo bien desarrollado por sí solo dentro del procesamiento de imágenes. Los límites y bordes de las regiones están estrechamente relacionados, ya que a menudo hay un ajuste brusco en la intensidad en los límites de la región. Por tanto, se han utilizado técnicas de detección de bordes como base de otra técnica de segmentación.

Los bordes identificados por la detección de bordes a menudo están desconectados. Sin embargo, para segmentar un objeto a partir de una imagen, se necesitan límites de región cerrados. Los bordes deseados son los límites entre dichos objetos o taxones espaciales.

Los taxones espaciales son gránulos de información, que consisten en una región de píxeles nítida, ubicada en niveles de abstracción dentro de una arquitectura de escena anidada jerárquica. Son similares a la designación psicológica Gestalt de figura-fondo, pero se amplían para incluir el primer plano, grupos de objetos, objetos y partes destacadas del objeto. Los métodos de detección de bordes se pueden aplicar a la región del taxón espacial, de la misma manera que se aplicarían a una silueta. Este método es particularmente útil cuando el borde desconectado es parte de un contorno ilusorio.

Los métodos de segmentación también se pueden aplicar a bordes obtenidos de detectores de bordes. Lindeberg y Li desarrollaron un método integrado que segmenta los bordes en segmentos de borde rectos y curvos para el reconocimiento de objetos basado en partes, basándose en un criterio de longitud mínima de descripción (M_DL) que fue optimizado mediante un método de división y división. Método similar a una fusión con puntos de interrupción candidatos obtenidos a partir de señales de unión complementarias para obtener puntos más probables en los que considerar particiones en diferentes segmentos.

Método de agrupación dual

Este método es una combinación de tres características de la imagen: la partición de la imagen basada en el análisis del histograma se verifica por la alta compacidad de los grupos (objetos) y los altos gradientes de sus bordes. Para ello hay que introducir dos espacios: un espacio es el histograma unidimensional de brillo H = H(B); el segundo espacio es el espacio tridimensional dual de la propia imagen original B = B(x, y). El primer espacio permite medir qué tan compactamente se distribuye el brillo de la imagen calculando un kmin de agrupamiento mínimo. El brillo umbral T correspondiente a kmin define la imagen binaria (blanco y negro) – mapa de bits b = φ(x, y ), donde φ(x, y) = 0, si B( x, y) < T y φ(x, y) = 1, si B(x, y) ≥ T. El mapa de bits b es un objeto en espacio dual. En ese mapa de bits se debe definir una medida que refleje qué tan compactos son los píxeles negros (o blancos) distribuidos. Entonces, el objetivo es encontrar objetos con buenos bordes. Para todo T la medida M_DC = G/(k × L) debe calcularse (donde k es la diferencia de brillo entre el objeto y el fondo, L es la longitud de todos los bordes y G es el gradiente medio en los bordes). El máximo de MDC define la segmentación.

Métodos de crecimiento regional

Los métodos de crecimiento de regiones se basan principalmente en la suposición de que los píxeles vecinos dentro de una región tienen valores similares. El procedimiento común es comparar un píxel con sus vecinos. Si se satisface un criterio de similitud, se puede configurar que el píxel pertenezca al mismo grupo que uno o más de sus vecinos. La selección del criterio de similitud es significativa y los resultados están influenciados por el ruido en todos los casos.

El método de fusión de regiones estadísticas (SRM) comienza construyendo el gráfico de píxeles utilizando 4 conexiones con bordes ponderados por el valor absoluto de la diferencia de intensidad. Inicialmente, cada píxel forma una única región de píxeles. Luego, SRM ordena esos bordes en una cola de prioridad y decide si fusionar o no las regiones actuales que pertenecen a los píxeles del borde utilizando un predicado estadístico.

Un método de crecimiento regional es el método de cultivo de la región de semillas. Este método toma un conjunto de semillas como entrada junto con la imagen. Las semillas marcan cada uno de los objetos a ser segmentados. Las regiones son cultivadas iterativamente por comparación de todos los píxeles vecinos no localizados a las regiones. La diferencia entre el valor de intensidad de un pixel y la media de la región, ${displaystyle delta }$ , se utiliza como una medida de similitud. El píxel con la menor diferencia medida de esta manera se asigna a la región respectiva. Este proceso continúa hasta que todos los píxeles sean asignados a una región. Debido a que el crecimiento de la región de semillas requiere semillas como entrada adicional, los resultados de la segmentación dependen de la elección de semillas, y el ruido en la imagen puede hacer que las semillas estén mal colocadas.

Otro método de crecimiento de la región es el método de crecimiento de la región sin semillas. Es un algoritmo modificado que no requiere semillas explícitas. Empieza con una sola región ${displaystyle A_{1}$ —el píxel elegido aquí no influye marcadamente en la segmentación final. En cada iteración se consideran los píxeles vecinos de la misma manera que crece la región de semillas. difiere de la región de semillas creciendo en que si el mínimo ${displaystyle delta }$ es menos que un umbral predefinido ${displaystyle T}$ entonces se añade a la región respectiva ${displaystyle A_{j}$ . Si no, entonces el píxel se considera diferente de todas las regiones actuales ${displaystyle A_{i}$ y una nueva región ${displaystyle A_{n+1}$ es creado con este pixel.

Una variante de esta técnica, propuesta por Haralick y Shapiro (1985), se basa en las intensidades de los píxeles. La media y la dispersión de la región y la intensidad del píxel candidato se utilizan para calcular una estadística de prueba. Si la estadística de prueba es suficientemente pequeña, el píxel se agrega a la región y se vuelven a calcular la media y la dispersión de la región. De lo contrario, el píxel se rechaza y se utiliza para formar una nueva región.

Se denomina un método especial de crecimiento regional ${displaystyle lambda }$ - segmentación conectada (ver también lambda-conexión). Se basa en intensidades de pixel y caminos de enlace con el vecindario. Un grado de conectividad (conexión) se calcula sobre la base de un camino que se forma por píxeles. Por cierto valor ${displaystyle lambda }$ , dos píxeles se llaman ${displaystyle lambda }$ -conectado si hay un camino que une esos dos píxeles y la conexión de este camino es al menos ${displaystyle lambda }$ . ${displaystyle lambda }$ - La conexión es una relación de equivalencia.

La segmentación por división y fusión se basa en una partición de cuatro árboles de una imagen. A veces se le llama segmentación de cuatro árboles.

Este método comienza en la raíz del árbol que representa toda la imagen. Si se encuentra no uniforme (no homogénea), entonces se divide en cuatro plazas infantiles (el proceso de división), y así sucesivamente. Si, en cambio, cuatro plazas infantiles son homogéneas, se fusionan como varios componentes conectados (el proceso de fusión). El nodo en el árbol es un nodo segmentado. Este proceso continúa recursivamente hasta que no se puedan dividir ni fusionar más. Cuando una estructura de datos especial está involucrada en la implementación del algoritmo del método, su complejidad de tiempo puede llegar ${displaystyle O(nlog n)}$ , un algoritmo óptimo del método.

Métodos basados en ecuaciones diferenciales parciales

Usando un método basado en ecuaciones diferenciales parciales (PDE) y resolviendo la ecuación PDE mediante un esquema numérico, se puede segmentar la imagen. La propagación de curvas es una técnica popular en esta categoría, con numerosas aplicaciones para la extracción de objetos, el seguimiento de objetos, la reconstrucción estéreo, etc. La idea central es desarrollar una curva inicial hacia el potencial más bajo de una función de costos, donde su definición refleja la tarea de Ser dirigido. Como ocurre con la mayoría de los problemas inversos, la minimización del costo funcional no es trivial e impone ciertas restricciones de suavidad en la solución, que en el presente caso pueden expresarse como restricciones geométricas en la curva en evolución.

Métodos paramétricos

Las técnicas lagrangianas se basan en parametrizar el contorno según alguna estrategia de muestreo y luego evolucionar cada elemento según la imagen y los términos internos. Estas técnicas son rápidas y eficientes; sin embargo, las técnicas "puramente paramétricas" (debida a Kass, Witkin y Terzopoulos en 1987 y conocida como "serpientes"), es generalmente criticada por sus limitaciones en cuanto a la elección de la estrategia de muestreo, las propiedades geométricas internas de la curva, los cambios de topología (división de curvas y fusionándose), abordando problemas en dimensiones superiores, etc. Hoy en día, las soluciones eficientes "discretizadas" Se han desarrollado formulaciones para abordar estas limitaciones manteniendo una alta eficiencia. En ambos casos, la minimización de energía generalmente se lleva a cabo utilizando un descenso de gradiente más pronunciado, mediante el cual las derivadas se calculan utilizando, por ejemplo, diferencias finitas.

Métodos de establecimiento de niveles

El método de conjunto de niveles fue propuesto inicialmente para rastrear interfaces en movimiento por Dervieux y Thomasset en 1979 y 1981 y luego fue reinventado por Osher y Sethian en 1988. Esto se ha extendido a varios dominios de imágenes a fines de la década de 1990. Se puede utilizar para abordar de manera eficiente el problema de curva/superficie/etc. propagación de manera implícita. La idea central es representar el contorno en evolución utilizando una función con signo cuyo cero corresponde al contorno real. Luego, de acuerdo con la ecuación de movimiento del contorno, se puede derivar fácilmente un flujo similar para la superficie implícita que, cuando se aplica al nivel cero, reflejará la propagación del contorno. El método de conjunto de niveles ofrece numerosas ventajas: es implícito, no tiene parámetros, proporciona una forma directa de estimar las propiedades geométricas de la estructura en evolución, permite cambios de topología y es intrínseco. Puede utilizarse para definir un marco de optimización, como lo propusieron Zhao, Merriman y Osher en 1996. Se puede concluir que es un marco muy conveniente para abordar numerosas aplicaciones de visión por computadora y análisis de imágenes médicas. La investigación de varias estructuras de datos de conjuntos de niveles ha llevado a implementaciones muy eficientes de este método.

Métodos de marcha rápida

El método de marcha rápida se ha utilizado en la segmentación de imágenes y este modelo se ha mejorado (permitiendo velocidades de propagación tanto positivas como negativas) en un enfoque denominado método de marcha rápida generalizada.

Métodos variacionales

El objetivo de los métodos de variación es encontrar una segmentación que es óptima con respecto a una energía funcional específica. Las funciones consisten en un término de ajuste de datos y en términos de regularización. Un representante clásico es el modelo Pots definido para una imagen ${displaystyle f}$ por

{displaystyle operatorname {argmin} _{u}gamma sobrevivirnabla u eterna_{0}+int (u-f)^{2},dx.}

Un minimizador ${displaystyle u^{*}$ es una imagen constante a la pieza que tiene un óptimo intercambio entre la distancia L2 cuadrada a la imagen dada ${displaystyle f}$ y la longitud total de su conjunto de saltos. El juego de saltos ${displaystyle u^{*}$ define una segmentación. El peso relativo de las energías es sintonizado por el parámetro ${displaystyle gamma >0}$ . La variante binaria del modelo Pots, es decir, si la gama de ${displaystyle u}$ se limita a dos valores, a menudo se llama modelo Chan-Vese. Una generalización importante es el modelo Mumford-Shah dado por

{displaystyle operatorname {argmin} _{u,K}gamma TENK _{K^{C}nabla u habit^{2},dx+int (u-f)^{2},dx.}

El valor funcional es la suma de la longitud total de la curva de segmentación ${displaystyle K}$ , la suavidad de la aproximación ${displaystyle u}$ , y su distancia a la imagen original ${displaystyle f}$ . El peso de la pena de suavidad se ajusta por ${displaystylemu }$ . El modelo Pots se llama a menudo modelo constante de Mumford-Shah, ya que se puede ver como el caso degenerado ${displaystyle mu to infty }$ . Los problemas de optimización son conocidos como NP-hard en general pero las estrategias casi minimizadoras funcionan bien en la práctica. Los algoritmos clásicos se gradúa no-convexidad y aproximación Ambrosio-Tortorelli.

Métodos de partición de gráficos

Los métodos de partición de gráficos son herramientas efectivas para la segmentación de imágenes, ya que modelan el impacto de las vecindades de píxeles en un grupo determinado de píxeles o píxeles, bajo el supuesto de homogeneidad en las imágenes. En estos métodos, la imagen se modela como un gráfico no dirigido ponderado. Por lo general, un píxel o un grupo de píxeles están asociados con nodos y los pesos de los bordes definen la (des)similitud entre los píxeles vecinos. Luego, el gráfico (imagen) se divide según un criterio diseñado para modelar valores "buenos"; racimos. Cada partición de los nodos (píxeles) generados por estos algoritmos se considera un segmento de objeto en la imagen; consulte Categorización de objetos basada en segmentación. Algunos algoritmos populares de esta categoría son cortes normalizados, caminante aleatorio, corte mínimo, partición isoperimétrica, segmentación basada en árbol de expansión mínima y categorización de objetos basada en segmentación.

Campos aleatorios de Markov

La aplicación de campos aleatorios de Markov (MRF) para imágenes fue sugerida a principios de 1984 por Geman y Geman. Su sólida base matemática y su capacidad para proporcionar un óptimo global incluso cuando se define en función de características locales demostraron ser la base para investigaciones novedosas en el dominio del análisis, la eliminación de ruido y la segmentación de imágenes. Los MRF se caracterizan completamente por sus distribuciones de probabilidad previa, distribuciones de probabilidad marginal, camarillas, restricciones de suavizado y criterios para actualizar los valores. El criterio para la segmentación de imágenes utilizando MRF se reformula como encontrar el esquema de etiquetado que tenga la máxima probabilidad para un conjunto dado de características. Las categorías amplias de segmentación de imágenes que utilizan MRF son segmentación supervisada y no supervisada.

Segmentación de imágenes supervisada mediante MRF y MAP

En términos de segmentación de imágenes, la función que los MRF buscan maximizar es la probabilidad de identificar un esquema de etiquetado dado que se detecta un conjunto particular de características en la imagen. Esta es una reformulación del método de estimación máxima a posteriori.

El algoritmo genérico para la segmentación de imágenes usando MAP se detalla a continuación:

Definir el barrio de cada característica (variable raramente en términos MRF).
Generalmente esto incluye vecinos de primer orden o segundo orden.
Establecer probabilidades iniciales $P () f i)$ > para cada función como 0 o
Donde $f i zioDt$ es el conjunto que contiene las características extraídas
para pixel $i$ y definir un conjunto inicial de grupos.
Utilizando los datos de entrenamiento computar el medio ( $μ l i$ ) y diferencia ( $σ l i$ ) para cada etiqueta. Esto se denomina estadísticas de clase.
Computar la distribución marginal para el esquema de etiquetado dado $P () f i Silencio l i)$ usando el teorema de Bayes y las estadísticas de clase calculadas antes. Un modelo Gaussiano se utiliza para la distribución marginal.
${fnK} {f_f_f_f})} {f} {f} {f_f_ {i})} {f} {f}f}}}}f}f}f}f}\\f}}f}\\f}}f}f}f}\\\\\f}}}}\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\f}]}]}\\\\\\f}]}]}\f}\f}\\\\\\\\\\f}]}\\\$
Calcular la probabilidad de cada etiqueta de clase dado el barrio definido anteriormente.
Los potenciales de la camarilla se utilizan para modelar el impacto social en el etiquetado.
Itear sobre nuevas probabilidades anteriores y redefinir grupos de tal manera que estas probabilidades se maximicen.
Esto se hace utilizando una variedad de algoritmos de optimización descritos a continuación.
Deténgase cuando se maximice la probabilidad y el esquema de etiquetado no cambie.
Los cálculos también se pueden implementar en términos de probabilidad de registro.

Algoritmos de optimización

Cada algoritmo de optimización es una adaptación de modelos de una variedad de campos y se distinguen por sus funciones de costos únicas. El rasgo común de las funciones de costos es penalizar el cambio en el valor de los píxeles, así como la diferencia en las etiquetas de los píxeles en comparación con las etiquetas de los píxeles vecinos.

Modos condicionales iterados/descenso de gradiente

El algoritmo de modos condicionales iterados (ICM) intenta reconstruir el esquema de etiquetado ideal cambiando los valores de cada píxel en cada iteración y evaluando la energía del nuevo esquema de etiquetado utilizando la función de costo que se proporciona a continuación.

{displaystyle alpha (1-delta (ell _{i}-ell _{text{initial }i}i})+beta Sigma _{qin N(i)}(1-delta (ell _{i},ell _{q(i)})}). }

Donde $α$ es la pena para el cambio en la etiqueta pixel y $β$ es la pena por diferencia en la etiqueta entre píxeles vecinos y pixel elegido. Aquí. ${displaystyle N(i)}$ es el barrio de pixel i y $δ$ es la función Kronecker delta. Un problema importante con el MCI es que, similar al descenso de gradiente, tiene tendencia a descansar sobre las máximas locales y por lo tanto no obtener un esquema de etiquetado globalmente óptimo.

Recocido simulado (SA)

Derivado como un análogo del recocido en metalurgia, el recocido simulado (SA) utiliza cambios en la etiqueta de píxel a lo largo de iteraciones y estima la diferencia de energía de cada gráfico recién formado con respecto a los datos iniciales. Si el gráfico recién formado es más rentable, en términos de bajo coste energético, viene dado por:

{displaystyle Delta U=U^{text{new}-U^{text{old}}

{displaystyle ell ¿Por qué? ################################################################################################################################################################################################################################################################ } Delta Uleq 0,\ell _{i}{text{new} {text{if} }Delta U confianza0{text{ and }}delta se hizo {-Delta U/T},ell _{i} {text{old}}end{cases}}}

el algoritmo selecciona el gráfico recién formado. El recocido simulado requiere la entrada de programas de temperatura que afectan directamente la velocidad de convergencia del sistema, así como el umbral de energía para que se produzca la minimización.

Algoritmos alternativos

Existe una variedad de otros métodos para resolver MRF simples y de orden superior. Incluyen maximización del margen posterior, estimación MAP multiescala, segmentación de resolución múltiple y más. Además de las estimaciones de probabilidad, existen métodos basados en gráficos altamente restringidos para resolver MRF.

Segmentación de imágenes mediante MRF y expectativa-maximización

El algoritmo de maximización de expectativas se utiliza para estimar de forma iterativa las probabilidades y distribuciones posteriores del etiquetado cuando no hay datos de entrenamiento disponibles y no se puede formar una estimación del modelo de segmentación. Un enfoque general es utilizar histogramas para representar las características de una imagen y proceder como se describe brevemente en este algoritmo de tres pasos:

1. Se utiliza una estimación aleatoria de los parámetros del modelo.

2. Paso E: Estimar las estadísticas de clase según el modelo de segmentación aleatoria definido. Utilizándolos, calcule la probabilidad condicional de pertenecer a una etiqueta dado que el conjunto de características se calcula utilizando el método ingenuo de Bayes. teorema.

{displaystyle P(lambda mid f_{i})={frac {P(f_{i}mid lambda)P(lambda)}{ Sigma _{lambda in Lambda }P(f_{i}mid lambda)P(lambda)}}}}

Aquí. ${displaystyle lambda in Lambda }$ , el conjunto de todas las etiquetas posibles.

3. Paso M: la relevancia establecida de un conjunto de características determinado para un esquema de etiquetado ahora se utiliza para calcular la estimación a priori de una etiqueta determinada en la segunda parte del algoritmo. Dado que se desconoce el número real de etiquetas totales (de un conjunto de datos de entrenamiento), en los cálculos se utiliza una estimación oculta del número de etiquetas proporcionadas por el usuario.

{displaystyle P(lambda)={frac {Sigma _{lambda in Lambda }P(lambda mid f_{i}}{ AnteriorOmega ¦}}}

Donde ${displaystyle Omega }$ es el conjunto de todas las características posibles.

Desventajas de la segmentación de imágenes basada en MAP y EM

No se pueden calcular fácilmente las estimaciones exactas del MAP.
Las estimaciones aproximadas de los MAP son costosas de cálculo.
La extensión a la etiqueta de varias clases degrada el rendimiento y aumenta el almacenamiento requerido.
Se requiere una estimación fiable de los parámetros para EM para que se alcance el optima global.
Basado en el método de optimización, la segmentación puede agruparse en minima local.

Transformación de cuencas

La transformación de cuenca considera la magnitud del gradiente de una imagen como una superficie topográfica. Los píxeles que tienen las intensidades de magnitud de gradiente (GMI) más altas corresponden a líneas divisorias de aguas, que representan los límites de la región. El agua colocada en cualquier píxel encerrado por una línea divisoria de aguas común fluye cuesta abajo hasta un mínimo de intensidad local común (LIM). Los píxeles que drenan hasta un mínimo común forman una cuenca de captación, que representa un segmento.

Segmentación basada en modelos

El supuesto central de los enfoques basados en modelos es que las estructuras de interés tienen una tendencia hacia una forma particular. Por tanto, se puede buscar un modelo probabilístico que caracterice la forma y su variación. Al segmentar una imagen, se pueden imponer restricciones utilizando este modelo como prioritario. Tal tarea puede implicar (i) el registro de los ejemplos de entrenamiento en una pose común, (ii) la representación probabilística de la variación de las muestras registradas y (iii) la inferencia estadística entre el modelo y la imagen. Otros métodos importantes en la literatura para la segmentación basada en modelos incluyen modelos de forma activos y modelos de apariencia activos.

Segmentación multiescala

Las segmentaciones de imágenes se calculan en múltiples escalas en el espacio de escala y, a veces, se propagan de escalas gruesas a finas; ver segmentación del espacio de escala.

Los criterios de segmentación pueden ser arbitrariamente complejos y pueden tener en cuenta criterios tanto globales como locales. Un requisito común es que cada región debe estar conectada en algún sentido.

Segmentación de señal jerárquica unidimensional

El trabajo fundamental de Witkin en el espacio de escala incluía la noción de que una señal unidimensional podía segmentarse sin ambigüedades en regiones, con un parámetro de escala controlando la escala de segmentación.

Una observación clave es que los cruces por cero de las segundas derivadas (mínimos y máximos de la primera derivada o pendiente) de versiones suavizadas de múltiples escalas de una señal forman un árbol de anidamiento, que define las relaciones jerárquicas entre segmentos en diferentes escamas. Específicamente, los extremos de pendiente en escalas gruesas se pueden rastrear hasta las características correspondientes en escalas finas. Cuando una pendiente máxima y una pendiente mínima se aniquilan entre sí a mayor escala, los tres segmentos que separaron se fusionan en un solo segmento, definiendo así la jerarquía de segmentos.

Segmentación de imágenes y boceto primario

Se han realizado numerosos trabajos de investigación en esta área, de los cuales algunos han alcanzado un estado en el que se pueden aplicar con intervención manual interactiva (normalmente con aplicación a imágenes médicas) o de forma totalmente automática. A continuación se presenta una breve descripción de algunas de las principales ideas de investigación en las que se basan los enfoques actuales.

Sin embargo, la estructura de anidamiento que describió Witkin es específica para señales unidimensionales y no se transfiere trivialmente a imágenes de dimensiones superiores. Sin embargo, esta idea general ha inspirado a varios otros autores a investigar esquemas de segmentación de imágenes de grueso a fino. Koenderink propuso estudiar cómo evolucionan los contornos de isointensidad a lo largo de las escalas y Lifshitz y Pizer investigaron este enfoque con más detalle. Desafortunadamente, sin embargo, la intensidad de las características de la imagen cambia según las escalas, lo que implica que es difícil rastrear características de la imagen de escala gruesa a escalas más finas utilizando información de isointensidad.

Lindeberg estudió el problema de vincular extremos locales y puntos de silla sobre escalas, y propuso una representación de imagen llamada bosquejo primario de espacio-escala que hace explícitas las relaciones entre estructuras en diferentes escalas, y también hace explícito qué características de la imagen son estables en diferentes escalas. amplios rangos de escala, incluidas escalas localmente apropiadas para ellos. Bergholm propuso detectar bordes en escalas gruesas en el espacio de escala y luego rastrearlos hasta escalas más finas con la elección manual tanto de la escala de detección gruesa como de la escala de localización fina.

Gauch y Pizer estudiaron el problema complementario de las crestas y los valles a múltiples escalas y desarrollaron una herramienta para la segmentación de imágenes interactiva basada en cuencas hidrográficas de múltiples escalas. Olsen y Nielsen también han investigado el uso de cuencas hidrográficas de múltiples escalas con aplicación al mapa de gradiente y Dam lo ha trasladado al uso clínico. Vincken et al. propuso una hiperpila para definir relaciones probabilísticas entre estructuras de imágenes en diferentes escalas. Ahuja y sus compañeros de trabajo han impulsado el uso de estructuras de imágenes estables en escalas hasta convertirlo en un sistema totalmente automatizado. Undeman y Lindeberg han presentado un algoritmo de segmentación cerebral totalmente automático basado en ideas estrechamente relacionadas de cuencas hidrográficas de múltiples escalas, que ha sido probado exhaustivamente en bases de datos cerebrales.

Florack y Kuijper también han retomado estas ideas para la segmentación de imágenes a múltiples escalas mediante la vinculación de estructuras de imágenes a través de escalas. Bijaoui y Rué asocian estructuras detectadas en el espacio de escala por encima de un umbral mínimo de ruido en un árbol de objetos que abarca múltiples escalas y corresponde a un tipo de característica en la señal original. Las características extraídas se reconstruyen con precisión utilizando un método iterativo de matriz de gradiente conjugado.

Segmentación semiautomática

En un tipo de segmentación, el usuario delinea la región de interés con los clics del mouse y se aplican algoritmos para que se muestre la ruta que mejor se ajusta al borde de la imagen.

En este tipo de segmentación se utilizan técnicas como SIOX, Livewire, Intelligent Scissors o IT-SNAPS. En un tipo alternativo de segmentación semiautomática, los algoritmos devuelven un taxón espacial (es decir, primer plano, grupo de objetos, objeto o parte del objeto) seleccionado por el usuario o designado mediante probabilidades previas.

Segmentación entrenable

La mayoría de los métodos de segmentación antes mencionados se basan únicamente en la información de color de los píxeles de la imagen. Los seres humanos utilizan mucho más conocimiento al realizar la segmentación de imágenes, pero implementar este conocimiento costaría una ingeniería humana y un tiempo computacional considerables, y requeriría una enorme base de datos de conocimientos de dominio que no existe actualmente. Los métodos de segmentación entrenables, como la segmentación de redes neuronales, superan estos problemas modelando el conocimiento del dominio a partir de un conjunto de datos de píxeles etiquetados.

Una red neuronal de segmentación de imágenes puede procesar pequeñas áreas de una imagen para extraer características simples como bordes. Luego, otra red neuronal, o cualquier mecanismo de toma de decisiones, puede combinar estas características para etiquetar las áreas de una imagen en consecuencia. Un tipo de red diseñada de esta manera es el mapa de Kohonen.

Las redes neuronales acopladas por pulsos (PCNN) son modelos neuronales propuestos modelando la corteza visual de un gato y desarrollados para el procesamiento de imágenes biomiméticas de alto rendimiento. En 1989, Reinhard Eckhorn introdujo un modelo neuronal para emular el mecanismo de la corteza visual de un gato. El modelo de Eckhorn proporcionó una herramienta sencilla y eficaz para estudiar la corteza visual de pequeños mamíferos, y pronto se reconoció que tenía un importante potencial de aplicación en el procesamiento de imágenes. En 1994, el modelo de Eckhorn fue adaptado para ser un algoritmo de procesamiento de imágenes por John L. Johnson, quien denominó a este algoritmo Red neuronal acoplada por pulsos. Durante la última década, las PCNN se han utilizado para una variedad de aplicaciones de procesamiento de imágenes, que incluyen: segmentación de imágenes, generación de características, extracción de rostros, detección de movimiento, crecimiento de regiones, reducción de ruido, etc. Una PCNN es una red neuronal bidimensional. Cada neurona de la red corresponde a un píxel en una imagen de entrada y recibe la información de color de su píxel correspondiente (por ejemplo, intensidad) como estímulo externo. Cada neurona también se conecta con sus neuronas vecinas, recibiendo de ellas estímulos locales. Los estímulos externos y locales se combinan en un sistema de activación interno, que acumula los estímulos hasta que supera un umbral dinámico, lo que da como resultado una salida de pulso. Mediante computación iterativa, las neuronas PCNN producen series temporales de salidas de pulsos. La serie temporal de salidas de pulsos contiene información de imágenes de entrada y se puede utilizar para diversas aplicaciones de procesamiento de imágenes, como segmentación de imágenes y generación de características. En comparación con los medios de procesamiento de imágenes convencionales, las PCNN tienen varias ventajas importantes, incluida la robustez frente al ruido, la independencia de las variaciones geométricas en los patrones de entrada, la capacidad de salvar variaciones menores de intensidad en los patrones de entrada, etc.

U-Net es una red neuronal convolucional que toma como entrada una imagen y genera una etiqueta para cada píxel. U-Net se desarrolló inicialmente para detectar límites celulares en imágenes biomédicas. U-Net sigue la arquitectura clásica del codificador automático, como tal, contiene dos subestructuras. La estructura del codificador sigue la pila tradicional de capas convolucionales y de agrupación máxima para aumentar el campo receptivo a medida que atraviesa las capas. Se utiliza para capturar el contexto de la imagen. La estructura del decodificador utiliza capas de convolución transpuestas para realizar un muestreo superior de modo que las dimensiones finales sean cercanas a las de la imagen de entrada. Las conexiones de salto se colocan entre capas de convolución y convolución transpuesta de la misma forma para preservar detalles que de otro modo se habrían perdido.

Además de las tareas de segmentación semántica a nivel de píxel que asignan una categoría determinada a cada píxel, las aplicaciones de segmentación modernas incluyen tareas de segmentación semántica a nivel de instancia en las que cada individuo de una categoría determinada debe identificarse de forma única, así como tareas de segmentación panóptica. que combina estas dos tareas para proporcionar una segmentación de escenas más completa.

Segmentación de imágenes y vídeos relacionados

Las imágenes relacionadas, como un álbum de fotos o una secuencia de fotogramas de vídeo, a menudo contienen objetos y escenas semánticamente similares, por lo que suele resultar beneficioso explotar dichas correlaciones. La tarea de segmentar simultáneamente escenas a partir de imágenes o fotogramas de vídeo relacionados se denomina cosegmentación, que se utiliza normalmente en la localización de acciones humanas. A diferencia de la detección de objetos convencional basada en cuadros delimitadores, los métodos de localización de acciones humanas proporcionan resultados más detallados, normalmente máscaras de segmentación por imagen que delinean el objeto humano de interés y su categoría de acción (por ejemplo, Segment-Tube). A menudo se emplean técnicas como las redes dinámicas de Markov, CNN y LSTM para explotar las correlaciones entre cuadros.

Otros métodos

Existen muchos otros métodos de segmentación, como la segmentación multiespectral o la segmentación basada en conectividad basada en imágenes DTI.

Más resultados...