Recuperación de información musical

Ajustar Compartir Imprimir Citar

Recuperación de información musical (MIR) es la ciencia interdisciplinaria de recuperar información de la música. Los involucrados en MIR pueden tener experiencia en musicología académica, psicoacústica, psicología, procesamiento de señales, informática, aprendizaje automático, reconocimiento óptico de música, inteligencia computacional o alguna combinación de estos.

Aplicaciones

MIR está siendo utilizado por empresas y académicos para categorizar, manipular e incluso crear música.

Clasificación de música

Uno de los temas de investigación clásicos de MIR es la clasificación de géneros, que consiste en categorizar elementos musicales en uno de los géneros predefinidos, como música clásica, jazz, rock, etc. La clasificación de estados de ánimo, la clasificación de artistas, la identificación de instrumentos y el etiquetado de música también son temas populares.

Sistemas de recomendación

Ya existen varios sistemas de recomendación de música, pero sorprendentemente pocos se basan en técnicas MIR, sino que utilizan la similitud entre los usuarios o la laboriosa compilación de datos. Pandora, por ejemplo, usa expertos para etiquetar la música con cualidades particulares como "cantante femenina" o "fuerte línea de bajo". Muchos otros sistemas encuentran usuarios cuyo historial de escucha es similar y les sugiere música inédita de sus respectivas colecciones. Las técnicas MIR para la similitud en la música ahora comienzan a formar parte de tales sistemas.

Separación de fuentes musicales y reconocimiento de instrumentos

La separación de fuentes de música consiste en separar las señales originales de una señal de audio mixta. El reconocimiento de instrumentos se trata de identificar los instrumentos involucrados en la música. Se han desarrollado varios sistemas MIR que pueden separar la música en sus pistas componentes sin acceder a la copia maestra. De esta manera, p. Las pistas de karaoke se pueden crear a partir de pistas de música normales, aunque el proceso aún no es perfecto debido a que las voces ocupan parte del mismo espacio de frecuencia que los otros instrumentos.

Transcripción automática de música

La transcripción automática de música es el proceso de convertir una grabación de audio en notación simbólica, como una partitura o un archivo MIDI. Este proceso implica varias tareas de análisis de audio, que pueden incluir detección de tonos múltiples, detección de inicio, estimación de duración, identificación de instrumentos y extracción de información armónica, rítmica o melódica. Esta tarea se vuelve más difícil con mayor número de instrumentos y un mayor nivel de polifonía.

Generación musical

La generación automática de música es un objetivo de muchos investigadores del MIR. Se han realizado intentos con un éxito limitado en términos de apreciación humana de los resultados.

Métodos utilizados

Fuente de datos

Las partituras brindan una descripción clara y lógica de la música a partir de la cual trabajar, pero el acceso a las partituras, ya sean digitales o no, a menudo no es práctico. La música MIDI también se ha utilizado por razones similares, pero algunos datos se pierden en la conversión a MIDI desde cualquier otro formato, a menos que la música se haya escrito teniendo en cuenta los estándares MIDI, lo cual es raro. Los formatos de audio digital como WAV, mp3 y ogg se utilizan cuando el audio en sí forma parte del análisis. Los formatos con pérdida, como mp3 y ogg, funcionan bien con el oído humano, pero es posible que falten datos cruciales para el estudio. Además, algunas codificaciones crean artefactos que podrían inducir a error a cualquier analizador automático. A pesar de esto, la ubicuidad del mp3 ha significado que muchas investigaciones en el campo los involucran como material de origen. Cada vez más, los metadatos extraídos de la web se incorporan en MIR para una comprensión más completa de la música dentro de su contexto cultural, y esto recientemente consiste en el análisis de etiquetas sociales para la música.

Representación de funciones

El análisis a menudo puede requerir algunos resúmenes, y para la música (al igual que con muchas otras formas de datos) esto se logra mediante la extracción de características, especialmente cuando se analiza el contenido de audio en sí y se aplica el aprendizaje automático. El propósito es reducir la gran cantidad de datos a un conjunto manejable de valores para que el aprendizaje se pueda realizar dentro de un marco de tiempo razonable. Una característica común extraída es el coeficiente cepstral de frecuencia Mel (MFCC), que es una medida del timbre de una pieza musical. Se pueden emplear otras características para representar la clave, los acordes, las armonías, la melodía, el tono principal, los tiempos por minuto o el ritmo de la pieza. Hay una serie de herramientas de extracción de características de audio disponibles Disponible aquí

Estadísticas y aprendizaje automático

Otros problemas

Actividad académica