Vocabulario controlado
vocabularios controlados proporcionan una forma de organizar el conocimiento para su posterior recuperación. Se utilizan en esquemas de indexación de materias, encabezamientos de materias, tesauros, taxonomías y otros sistemas de organización del conocimiento. Los esquemas de vocabulario controlado exigen el uso de términos preferidos predefinidos que han sido preseleccionados por los diseñadores de los esquemas, en contraste con los vocabularios del lenguaje natural, que no tienen tal restricción.
En biblioteconomía y ciencias de la información
En bibliotecología y ciencias de la información, el vocabulario controlado es una lista cuidadosamente seleccionada de palabras y frases, que se utilizan para etiquetar unidades de información (documento o trabajo) para que puedan recuperarse más fácilmente mediante una búsqueda. Los vocabularios controlados resuelven los problemas de homógrafos, sinónimos y polisemas mediante una biyección entre conceptos y términos preferidos. En resumen, los vocabularios controlados reducen la ambigüedad inherente a los lenguajes humanos normales, donde al mismo concepto se le pueden dar diferentes nombres y garantizar la coherencia.
Por ejemplo, en los encabezamientos de materia de la Biblioteca del Congreso (un sistema de encabezamientos de materia que utiliza un vocabulario controlado), los términos preferidos (en este caso, encabezamientos de materia) deben elegirse para manejar las opciones entre variantes ortográficas de la misma palabra (estadounidense). versus británico), elección entre términos científicos y populares (cucaracha versus Periplaneta americana), y elección entre sinónimos (automóvil versus coche), entre otras cuestiones difíciles.
La elección de los términos preferidos se basa en los principios de garantía de usuario (qué términos es probable que utilicen los usuarios), garantía literaria (qué términos se utilizan generalmente en la literatura y documentos), y garantía estructural (términos elegidos considerando la estructura y el alcance del vocabulario controlado).
Los vocabularios controlados también suelen abordar el problema de los homógrafos con calificadores. Por ejemplo, el término piscina debe calificarse para referirse a piscina o al juego piscina para garantizar que cada término o título preferido se refiera a un solo concepto.
Tipos utilizados en bibliotecas
Hay dos tipos principales de herramientas de vocabulario controlado que se utilizan en las bibliotecas: títulos de materia y tesauros. Si bien las diferencias entre los dos están disminuyendo, todavía existen algunas diferencias menores. Históricamente, los catalogadores diseñaban los encabezamientos de materia para describir libros en los catálogos de las bibliotecas, mientras que los indexadores utilizaban los tesauros para aplicar términos de indexación a documentos y artículos. Los títulos de materia tienden a tener un alcance más amplio y describen libros completos, mientras que los tesauros tienden a ser más especializados y abarcan disciplinas muy específicas. También debido al sistema de catálogo de tarjetas, los encabezamientos de materia tienden a tener términos en orden indirecto (aunque con el auge de los sistemas automatizados esto se está eliminando), mientras que los términos del tesauro siempre están en orden directo. Los encabezamientos de materia también tienden a utilizar una mayor coordinación previa de términos, de modo que el diseñador del vocabulario controlado combinará varios conceptos para formar un encabezamiento de materia preferido. (por ejemplo, niños y terrorismo), mientras que los tesauros tienden a utilizar términos directos singulares. Por último, los tesauros enumeran no sólo términos equivalentes sino también términos más restringidos y amplios y términos relacionados entre varios términos preferidos y no preferidos (pero potencialmente sinónimos), mientras que históricamente la mayoría de los encabezamientos temáticos no lo hacían. Por ejemplo, el encabezamiento de materia de la Biblioteca del Congreso no tuvo mucha estructura sindética hasta 1943, y no fue hasta 1985 cuando comenzó a adoptar el término tipo tesauro "término más amplio" y "plazo estrecho".
Los términos son elegidos y organizados por profesionales capacitados (incluidos bibliotecarios y científicos de la información) que poseen experiencia en el área temática. Los términos de vocabulario controlado pueden describir con precisión de qué trata realmente un documento determinado, incluso si los términos en sí no aparecen dentro del texto del documento. Los sistemas de encabezados de materias más conocidos incluyen el sistema de la Biblioteca del Congreso, los encabezados de materias médicas (MeSH) creados por la Biblioteca Nacional de Medicina de los Estados Unidos y Sears. Los tesauros más conocidos incluyen el Tesauro de Arte y Arquitectura y el Tesauro ERIC.
Al seleccionar términos para un vocabulario controlado, el diseñador debe considerar la especificidad del término elegido, si se utilizará la entrada directa, la interconsistencia y la estabilidad del lenguaje.
Por último, la cantidad de precoordinación (en cuyo caso el grado de enumeración versus síntesis se convierte en un problema) y poscoordinación en el sistema es otra cuestión importante. Los elementos de vocabulario controlado (términos/frases) empleados como etiquetas, para ayudar en el proceso de identificación del contenido de los documentos, u otras entidades del sistema de información (por ejemplo, DBMS, servicios web) califican como metadatos.
Idiomas de indexación
Existen tres tipos principales de lenguajes de indexación.
- Lenguaje de indexación controlada – sólo los términos aprobados pueden ser utilizados por el indexador para describir el documento
- Lenguaje de indexación de lenguaje natural – cualquier término del documento en cuestión se puede utilizar para describir el documento
- Lenguaje de indexación libre – cualquier término (no sólo del documento) se puede utilizar para describir el documento
Al indexar un documento, el indexador también tiene que elegir el nivel de exhaustividad de la indexación, el nivel de detalle con el que se describe el documento. Por ejemplo, al utilizar una indexación baja y exhaustiva, los aspectos menores del trabajo no se describirán con términos de indexación. En general, cuanto mayor sea la exhaustividad de la indexación, más términos se indexarán para cada documento.
En los últimos años se ha popularizado la búsqueda de texto libre como medio de acceso a documentos. Esto implica el uso de indexación en lenguaje natural con una indexación exhaustivamente establecida al máximo (cada palabra del texto está indexada). Se han realizado muchos estudios para comparar la eficiencia y eficacia de las búsquedas de texto libre con documentos indexados por expertos utilizando unos pocos descriptores de vocabulario controlados bien elegidos.
Ventajas
A menudo se afirma que los vocabularios controlados mejoran la precisión de la búsqueda de texto libre, como por ejemplo reducir los elementos irrelevantes en la lista de recuperación. Estos elementos irrelevantes (falsos positivos) suelen ser causados por la ambigüedad inherente del lenguaje natural. Tomemos como ejemplo la palabra inglesa fútbol. Fútbol es el nombre que reciben varios deportes de equipo diferentes. El más popular de estos deportes de equipo en todo el mundo es el fútbol asociativo, que en varios países también se llama soccer. La palabra fútbol también se aplica al rugby (rugby union y rugby league), al fútbol americano, al fútbol australiano, al fútbol gaélico y al fútbol canadiense. Por lo tanto, una búsqueda de fútbol recuperará documentos que tratan sobre varios deportes completamente diferentes. El vocabulario controlado resuelve este problema etiquetando los documentos de tal manera que se eliminen las ambigüedades.
En comparación con la búsqueda de texto libre, el uso de un vocabulario controlado puede aumentar drásticamente el rendimiento de un sistema de recuperación de información, si el rendimiento se mide por la precisión (el porcentaje de documentos en la lista de recuperación que son realmente relevantes para el tema de búsqueda). .
En algunos casos, el vocabulario controlado también puede mejorar la recuperación, porque a diferencia de los esquemas de lenguaje natural, una vez que se busca el término preferido correcto, no es necesario buscar otros términos que puedan ser sinónimos de ese término.
Problemas
Una búsqueda de vocabulario controlada puede dar lugar a una recuperación insatisfactoria, ya que no podrá recuperar algunos documentos que son realmente relevantes para la pregunta de búsqueda.
Esto es particularmente problemático cuando la pregunta de búsqueda involucra términos que son lo suficientemente tangenciales al área temática como para que el indexador haya decidido etiquetarlo usando un término diferente (pero el buscador podría considerar el mismo). Básicamente, esto sólo puede evitarlo un usuario experimentado de vocabulario controlado cuya comprensión del vocabulario coincida con la del indexador.
Otra posibilidad es que el artículo no es etiquetado por el indexador porque indexar la exhaustividad es baja. Por ejemplo, un artículo podría mencionar el fútbol como un enfoque secundario, y el indexador podría decidir no etiquetarlo con "pieball" porque no es lo suficientemente importante en comparación con el enfoque principal. Pero resulta que para el buscador el artículo es relevante y por lo tanto no recuerda. Una búsqueda gratuita de texto recogería automáticamente ese artículo independientemente.
Por otro lado, las búsquedas de texto libre tienen una alta exhaustividad (se busca cada palabra), por lo que, aunque tienen una precisión mucho menor, tienen potencial para una alta recuperación siempre que el buscador supere el problema de los sinónimos ingresando cada combinación.
Los vocabularios controlados pueden quedar obsoletos rápidamente en campos de conocimiento en rápido desarrollo, a menos que los términos preferidos se actualicen periódicamente. Incluso en un escenario ideal, un vocabulario controlado suele ser menos específico que las palabras del texto mismo. Los indexadores que intentan elegir los términos de índice apropiados pueden malinterpretar al autor, mientras que este problema preciso no es un factor en un texto libre, ya que utiliza las propias palabras del autor.
El uso de vocabularios controlados puede ser costoso comparado con las búsquedas gratuitas de texto porque los expertos humanos o los costosos sistemas automatizados son necesarios para indexar cada entrada. Además, el usuario debe estar familiarizado con el esquema de vocabulario controlado para hacer el mejor uso del sistema. Pero como ya se ha mencionado, el control de los sinónimos, las homografías pueden ayudar a aumentar la precisión.
Se han desarrollado numerosas metodologías para ayudar en la creación de vocabularios controlados, incluida la clasificación por facetas, que permite describir un registro de datos o un documento determinado de múltiples maneras.
La elección de palabras en los vocabularios elegidos no es neutral, y el indexador debe considerar cuidadosamente la ética de sus opciones de palabras. Por ejemplo, los términos tradicionalmente colonialistas han sido a menudo los términos preferidos en los vocabularios elegidos cuando se examinan cuestiones de las Primeras Naciones, lo que ha causado controversia.
Aplicaciones
Los vocabularios controlados, como los títulos de materias de la Biblioteca del Congreso, son un componente esencial de la bibliografía, el estudio y la clasificación de libros. Inicialmente se desarrollaron en biblioteconomía y ciencias de la información. En la década de 1950, las agencias gubernamentales comenzaron a desarrollar vocabularios controlados para la floreciente literatura periodística en campos especializados; un ejemplo son los títulos de materias médicas (MeSH) desarrollados por la Biblioteca Nacional de Medicina de EE. UU. Posteriormente, surgieron empresas con fines de lucro (llamadas servicios de indexación y resúmenes) para indexar la literatura en rápido crecimiento en todos los campos del conocimiento. En la década de 1960, se desarrolló una industria de bases de datos bibliográficas en línea basada en redes telefónicas X.25. Estos servicios rara vez se pusieron a disposición del público porque eran difíciles de utilizar; bibliotecarios especializados llamados intermediarios de búsqueda se encargaban del trabajo de búsqueda. En la década de 1980 aparecieron las primeras bases de datos de texto completo; estas bases de datos contienen el texto completo de los artículos indexados así como la información bibliográfica. Las bases de datos bibliográficas en línea han migrado a Internet y ahora están disponibles públicamente; sin embargo, la mayoría son propietarios y su uso puede resultar costoso. Los estudiantes matriculados en colegios y universidades pueden acceder a algunos de estos servicios sin cargo; algunos de estos servicios pueden ser accesibles sin cargo en una biblioteca pública.
Comunicación técnica
En organizaciones grandes, se pueden introducir vocabularios controlados para mejorar la comunicación técnica. El uso de vocabulario controlado garantiza que todos utilicen la misma palabra para significar lo mismo. Esta coherencia de términos es uno de los conceptos más importantes en la redacción técnica y la gestión del conocimiento, donde se hace un esfuerzo para utilizar la misma palabra en todo un documento u organización en lugar de otras ligeramente diferentes para referirse a lo mismo.
Web semántica y datos estructurados
La búsqueda web podría mejorarse drásticamente mediante el desarrollo de un vocabulario controlado para describir páginas web; el uso de dicho vocabulario podría culminar en una Web semántica, en la que se describe el contenido de páginas web utilizando un esquema de metadatos legibles por máquina. Una de las primeras propuestas para ese plan es la Iniciativa básica de Dublín. Un ejemplo de un vocabulario controlado que es utilizable para indexar páginas web es PSH.
Es poco probable que un único esquema de metadatos logre alguna vez describir el contenido de toda la Web. Para crear una Web Semántica, puede ser necesario recurrir a dos o más sistemas de metadatos para describir el contenido de una página Web. El lenguaje de metadatos facetados intercambiables (XFML) está diseñado para permitir a los creadores de vocabulario controlado publicar y compartir sistemas de metadatos. XFML está diseñado según principios de clasificación por facetas.
Los vocabularios controlados de la Web Semántica definen los conceptos y relaciones (términos) utilizados para describir un campo de interés o área de preocupación. Por ejemplo, para declarar una persona en un formato legible por máquina, se necesita un vocabulario que tenga la definición formal de "Persona", como el vocabulario Amigo de un Amigo (FOAF), que tiene una clase Persona. que define las propiedades típicas de una persona, incluidos, entre otros, nombre, prefijo honorífico, afiliación, dirección de correo electrónico y página de inicio, o el vocabulario de persona de Schema.org. De manera similar, un libro se puede describir utilizando el vocabulario de libros de Schema.org y términos generales de publicación del vocabulario Dublin Core, un evento con el vocabulario de eventos de Schema.org, etc.
Para utilizar términos legibles por máquina de cualquier vocabulario controlado, los diseñadores web pueden elegir entre una variedad de formatos de anotación, incluidos RDFa, microdatos HTML5 o JSON-LD en el marcado, o serializaciones RDF (RDF/XML, Turtle, N3 , TriG, TriX) en archivos externos.
Contenido relacionado
ALGOL Y
Filosofía de la inteligencia artificial
Red troncal
Historial de versiones de macOS
Historia de la supercomputación