WordNet
WordNet es una base de datos léxica de relaciones semánticas entre palabras en más de 200 idiomas. WordNet vincula palabras en relaciones semánticas que incluyen sinónimos, hipónimos y merónimos. Los sinónimos se agrupan en synsets con definiciones breves y ejemplos de uso. Por lo tanto, WordNet puede verse como una combinación y extensión de un diccionario y un diccionario de sinónimos. Si bien es accesible para los usuarios humanos a través de un navegador web, su uso principal es el análisis automático de texto y las aplicaciones de inteligencia artificial. WordNet se creó por primera vez en inglés y la base de datos y las herramientas de software de WordNet en inglés se publicaron bajo una licencia de estilo BSD y están disponibles para su descarga gratuita desde ese sitio web de WordNet.
Historia y miembros del equipo
WordNet se creó por primera vez solo en inglés en el Laboratorio de Ciencias Cognitivas de la Universidad de Princeton bajo la dirección del profesor de psicología George Armitage Miller a partir de 1985 y luego fue dirigida por Christiane Fellbaum. El proyecto fue inicialmente financiado por la Oficina de Investigación Naval de EE. UU. y luego también por otras agencias gubernamentales de EE. UU., incluidas DARPA, la Fundación Nacional de Ciencias, la Oficina de Tecnología Disruptiva (anteriormente Actividad de Investigación y Desarrollo Avanzado) y REFLEX. George Miller y Christiane Fellbaum recibieron el Premio Antonio Zampolli 2006 por su trabajo con WordNet.
La Asociación Mundial de WordNet es una organización no comercial que proporciona una plataforma para debatir, compartir y conectar WordNets para todos los idiomas del mundo. Christiane Fellbaum y Piek Th.J.M. Vossen sirven como copresidentes.
Contenido de la base de datos
La base de datos contiene 155 327 palabras organizadas en 175 979 conjuntos sintéticos para un total de 207 016 pares de palabras y sentido; en forma comprimida, tiene un tamaño aproximado de 12 megabytes.
WordNet incluye las categorías léxicas de sustantivos, verbos, adjetivos y adverbios, pero ignora las preposiciones, los determinantes y otras palabras funcionales.
Las palabras de la misma categoría léxica que son aproximadamente sinónimos se agrupan en synsets. Synsets incluyen palabras simplex así como colocaciones como "eat out" y "car pool." Los diferentes sentidos de una forma de palabra polisémica se asignan a diferentes synsets. El significado de un synset se aclara aún más con un breve brillo definidor y uno o más ejemplos de uso. Un ejemplo de adjetivo synset es:
- bueno, correcto, maduro – (más adecuado o adecuado para un propósito particular; "un buen momento para plantar tomates"; "el momento adecuado para actuar"; "el tiempo está maduro para grandes cambios sociológicos")
Todos los synsets están conectados a otros synsets por medio de relaciones semánticas. Estas relaciones, que no son todas compartidas por todas las categorías léxicas, incluyen:
- Nouns
- hipernyms: Y es un hipernym de X si X es una especie de Y ()canino es un hipernym de perro)
- hiponyms: Y es un hiponym de X si Y es una especie de X ()perro es un hiponym de canino)
- coordenadas: Y es un término de coordenadas X si X y Y compartir un hipernym (lobo es un término de coordenadas perro, y perro es un término de coordenadas lobo)
- merónimo: Y es un merónimo X si Y es una parte de X ()ventana es un merónimo construcción)
- holonym: Y es un santo X si X es una parte de Y ()construcción es un santo ventana)
- Verbos
- hipernym: el verbo Y es un hipernym del verbo X si la actividad X es una especie de Y ()percibir es un hipernym de escuchar)
- troponym: el verbo Y es un troponym del verbo X si la actividad Y está haciendo X de alguna manera (a lisp es un troponym de para hablar)
- implicación: el verbo Y está implicado por X si X Debes estar haciendo Y ()dormir está implicado por to snore)
- coordenadas: esos verbos compartiendo un hipernym común (a lisp y para gritar)
Estas relaciones semánticas se mantienen entre todos los miembros de los synsets vinculados. Los miembros individuales de synset (palabras) también se pueden conectar con relaciones léxicas. Por ejemplo, (un sentido de) el sustantivo "director" está vinculado a (un sentido de) el verbo "directo" del que se deriva a través de un "morfosemántico" Enlace.
Las funciones de morfología del software distribuido con la base de datos intentan deducir el lema o la raíz de una palabra a partir de la entrada del usuario. Los formularios irregulares se almacenan en una lista y al buscar "ate" volverá "comer," por ejemplo.
Estructura del conocimiento
Tanto los sustantivos como los verbos están organizados en jerarquías, definidas por hiperónimos o relaciones IS A. Por ejemplo, un sentido de la palabra perro se encuentra siguiendo la jerarquía de hiperónimos; las palabras en el mismo nivel representan miembros de synset. Cada conjunto de sinónimos tiene un índice único.
- perro, perro doméstico, Canis familiaris
- canino, canid
- carnivore
- mamíferos placenteros, euteros, mamíferos euteros
- mamíferos
- vertebrado, craniato
- acorde
- animal, ser animado, bestia, bruto, criatura, fauna
- ...
- animal, ser animado, bestia, bruto, criatura, fauna
- acorde
- vertebrado, craniato
- mamíferos
- mamíferos placenteros, euteros, mamíferos euteros
- carnivore
- canino, canid
En el nivel superior, estas jerarquías están organizadas en 25 "árboles" para sustantivos y 15 para verbos (llamados ficheros lexicográficos a nivel de mantenimiento). Todos están vinculados a un synset único para principiantes, "entidad". Las jerarquías de sustantivos son mucho más profundas que las jerarquías de verbos.
Los adjetivos no están organizados en árboles jerárquicos. En cambio, dos "centrales" antónimos como "caliente" y "frío" forman polos binarios, mientras que 'satélite' sinónimos como "cocer al vapor" y "frío" se conectan a sus respectivos polos a través de una "similitud" relaciones. Los adjetivos se pueden visualizar de esta manera como "mancuernas" en lugar de como "árboles".
Aspectos psicolingüísticos
El objetivo inicial del proyecto WordNet era construir una base de datos léxica que fuera coherente con las teorías de la memoria semántica humana desarrolladas a fines de la década de 1960. Los experimentos psicológicos indicaron que los hablantes organizaron su conocimiento de los conceptos de una manera económica y jerárquica. El tiempo de recuperación requerido para acceder al conocimiento conceptual parecía estar directamente relacionado con el número de jerarquías que el hablante necesitaba "atravesar" para acceder al conocimiento. Por lo tanto, los hablantes pudieron verificar más rápidamente que los canarios pueden cantar porque un canario es un pájaro cantor, pero requirieron un poco más de tiempo para verificar que los canarios pueden volar (donde tenían que acceder al concepto "pájaro" en el nivel superior) e incluso más tiempo para verificar los canarios tienen piel (lo que requiere una búsqueda en múltiples niveles de hiponimia, hasta "animal"). Si bien tales experimentos psicolingüísticos y las teorías subyacentes han sido objeto de críticas, parte de la organización de WordNet es consistente con la evidencia experimental. Por ejemplo, la afasia anómica afecta selectivamente a los hablantes & # 39; capacidad de producir palabras de una categoría semántica específica, una jerarquía de WordNet. Se ha descubierto que los adjetivos antónimos (los adjetivos centrales de WordNet en la estructura con mancuernas) ocurren con mucha más frecuencia que el azar, un hecho que se ha encontrado para muchos idiomas.
Como ontología léxica
WordNet a veces se denomina ontología, una afirmación persistente que sus creadores no hacen. Las relaciones hiperónimo/hipónimo entre los sinsets sustantivos pueden interpretarse como relaciones de especialización entre categorías conceptuales. En otras palabras, WordNet se puede interpretar y utilizar como una ontología léxica en el sentido de las ciencias de la computación. Sin embargo, tal ontología debe ser corregida antes de ser utilizada, porque contiene cientos de inconsistencias semánticas básicas; por ejemplo, existen (i) especializaciones comunes para categorías exclusivas y (ii) redundancias en la jerarquía de especialización. Además, transformar WordNet en una ontología léxica utilizable para la representación del conocimiento normalmente también debería implicar (i) distinguir las relaciones de especialización en relaciones subtypeOf e instanceOf, y (ii) asociar intuitivo único identificadores de cada categoría. Aunque dichas correcciones y transformaciones se han realizado y documentado como parte de la integración de WordNet 1.7 en la base de conocimientos actualizable cooperativamente de WebKB-2, la mayoría de los proyectos que afirman reutilizar WordNet para aplicaciones basadas en conocimientos (normalmente, recuperación de información orientada al conocimiento) simplemente reutilícelo directamente.
WordNet también se ha convertido en una especificación formal, por medio de una metodología híbrida ascendente y descendente para extraer automáticamente las relaciones de asociación de WordNet e interpretar estas asociaciones en términos de un conjunto de relaciones conceptuales, definidas formalmente en el Ontología fundacional DOLCE.
En la mayoría de los trabajos que afirman haber integrado WordNet en ontologías, el contenido de WordNet no se ha corregido simplemente cuando parecía necesario; en cambio, WordNet se ha reinterpretado y actualizado en gran medida siempre que ha sido adecuado. Este fue el caso cuando, por ejemplo, la ontología de nivel superior de WordNet se reestructuró de acuerdo con el enfoque basado en OntoClean o cuando se usó WordNet como fuente principal para construir las clases inferiores de la ontología SENSUS.
Limitaciones
La limitación más discutida de WordNet (y recursos relacionados como ImageNet) es que algunas de las relaciones semánticas son más adecuadas para conceptos concretos que para conceptos abstractos. Por ejemplo, es fácil crear relaciones hipónimos/hiperónimos para captar que una "conífera" es un tipo de "árbol", un "árbol" es un tipo de "planta", y una "planta" es un tipo de "organismo", pero es difícil clasificar emociones como "miedo" o "felicidad" en relaciones hipónimo/hipónimo igualmente profundas y bien definidas.
Muchos de los conceptos en WordNet son específicos de ciertos idiomas y el mapeo informado más preciso entre idiomas es del 94%. Sinónimos, hipónimos, merónimos y antónimos aparecen en todos los idiomas con WordNet hasta el momento, pero otras relaciones semánticas son específicas del idioma. Esto limita la interoperabilidad entre idiomas. Sin embargo, también convierte a WordNet en un recurso para resaltar y estudiar las diferencias entre idiomas, por lo que no es necesariamente una limitación para todos los casos de uso.
WordNet no incluye información sobre la etimología o la pronunciación de las palabras y solo contiene información limitada sobre el uso. WordNet tiene como objetivo cubrir la mayoría de las palabras cotidianas y no incluye mucha terminología específica del dominio.
WordNet es el léxico computacional del inglés más utilizado para la desambiguación del sentido de las palabras (WSD), una tarea destinada a asignar los significados apropiados al contexto (es decir, miembros de synset) a las palabras de un texto. Sin embargo, se ha argumentado que WordNet codifica distinciones de sentido que son demasiado detalladas. Este problema impide que los sistemas WSD alcancen un nivel de rendimiento comparable al de los humanos, que no siempre están de acuerdo cuando se enfrentan a la tarea de seleccionar un sentido de un diccionario que coincida con una palabra en un contexto. El problema de la granularidad se ha abordado proponiendo métodos de agrupamiento que agrupan automáticamente sentidos similares de la misma palabra.
Contenido ofensivo
WordNet incluye palabras que pueden percibirse como peyorativas u ofensivas. La interpretación de una palabra puede cambiar con el tiempo y entre grupos sociales, por lo que no siempre es posible que WordNet defina una palabra como "peyorativa" u "ofensivo" en aislamiento. Por lo tanto, las personas que usan WordNet deben aplicar sus propios métodos para identificar palabras ofensivas o peyorativas.
Sin embargo, esta limitación se aplica a otros recursos léxicos como diccionarios y tesauros, que también contienen palabras peyorativas y ofensivas. Algunos diccionarios indican palabras que son peyorativas, pero no incluyen todos los contextos en los que las palabras pueden ser aceptables u ofensivas para diferentes grupos sociales. Por lo tanto, las personas que usan diccionarios deben aplicar sus propios métodos para identificar todas las palabras ofensivas.
WordNets con licencia frente a Open
Posteriormente se crearon algunas redes de palabras para otros idiomas. Una encuesta de 2012 enumera las redes de palabras y su disponibilidad. En un esfuerzo por propagar el uso de WordNets, la comunidad global de WordNet había estado volviendo a otorgar lentamente la licencia de sus WordNets a un dominio abierto donde los investigadores y desarrolladores pueden acceder fácilmente y utilizar WordNets como recursos de lenguaje para proporcionar conocimiento ontológico y léxico en el procesamiento del lenguaje natural. (PNL) tareas.
La Open Multilingual WordNet proporciona acceso a wordnets con licencia abierta en una variedad de idiomas, todos vinculados a Princeton Wordnet of English (PWN). El objetivo es facilitar el uso de wordnets en varios idiomas.
Aplicaciones
WordNet se ha utilizado para varios propósitos en los sistemas de información, incluida la desambiguación del sentido de las palabras, la recuperación de información, la clasificación automática de textos, el resumen automático de textos, la traducción automática e incluso la generación automática de crucigramas.
Un uso común de WordNet es determinar la similitud entre palabras. Se han propuesto varios algoritmos, incluida la medición de la distancia entre palabras y synsets en la estructura gráfica de WordNet, como contar el número de bordes entre synsets. La intuición es que cuanto más cerca estén dos palabras o synsets, más cerca será su significado. Varios algoritmos de similitud de palabras basados en WordNet se implementan en un paquete de Perl llamado WordNet::Similarity y en un paquete de Python llamado NLTK. Otras técnicas de similitud más sofisticadas basadas en WordNet incluyen ADW, cuya implementación está disponible en Java. WordNet también se puede utilizar para interconectar otros vocabularios.
Interfaces
Princeton mantiene una lista de proyectos relacionados que incluye enlaces a algunas de las interfaces de programación de aplicaciones ampliamente utilizadas disponibles para acceder a WordNet utilizando varios lenguajes y entornos de programación.
Proyectos y extensiones relacionados
WordNet está conectado a varias bases de datos de la Web Semántica. WordNet también se reutiliza comúnmente a través de asignaciones entre los synsets de WordNet y las categorías de ontologías. La mayoría de las veces, solo se asignan las categorías de nivel superior de WordNet.
Asociación mundial de WordNet
La Asociación Mundial de WordNet (GWA) es una organización pública y no comercial que proporciona una plataforma para debatir, compartir y conectar redes de palabras para todos los idiomas del mundo. La GWA también promueve la estandarización de las redes de palabras en todos los idiomas, para garantizar su uniformidad en la enumeración de los synsets en los idiomas humanos. La GWA mantiene una lista de redes de palabras desarrolladas en todo el mundo.
Otros idiomas
- Árabe WordNet: WordNet para el idioma árabe.
- Ontología árabe, una ontología lingüística que tiene la misma estructura que wordnet, y mapeado a ella.
- El Balka El proyecto neto ha producido WordNets para seis idiomas europeos (Bulgariano, checo, griego, rumano, turco y serbio). Para este proyecto, se desarrolló un editor de WordNet basado en XML libremente disponible. Este editor – VisDic – ya no está en desarrollo activo, pero todavía se utiliza para la creación de varias WordNets. Su sucesor, DEBVisDic, es la aplicación cliente-servidor y se utiliza actualmente para la edición de varios WordNets (proyecto holandés en Cornetto, polaco, húngaro, varios idiomas africanos, chino).
- BulNet es una versión búlgara de WordNet desarrollada en el Departamento de Linguística Computacional del Instituto de Lengua Búlgara, Academia Búlgara de Ciencias.
- CWN (Chinese Wordnet o 中文路-21) apoyado por la Universidad Nacional de Taiwán.
- El EuroWord El proyecto neto ha producido WordNets para varios idiomas europeos y los ha unido; éstos no están disponibles libremente. El proyecto Global Wordnet intenta coordinar la producción y vinculación de "palabras" para todos los idiomas. Oxford University Press, el editor del Diccionario Inglés de Oxford, ha expresado planes para producir su propio competidor en línea a WordNet.
- FinnWordNet es una versión finlandesa de WordNet donde todas las entradas de la WordNet original en inglés fueron traducidas.
- GermaNet es una versión alemana de WordNet desarrollada por la Universidad de Tübingen.
- El IndoWordNet es una base de conocimientos lexicos enlazados de red de 18 idiomas programados de India viz., Assamese, Bangla, Bodo, Gujarati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Meitei (Manipuri), Marathi, Nepali, Odia, Punjabi, Sanskrit, Tamil, Telugu y Urdu.
- JAWS (Just Another WordNet Subset), otra versión francesa de WordNet construida usando los espacios Wiktionary y semánticos
- WordNet Bahasa: WordNet for Malay and Indonesia language, desarrollado por la Universidad de Tecnología de Nanyang.
- Malayalam WordNet, desarrollado por la Universidad Cochin de Ciencia y Tecnología.
- El Repositorio Central Multilingüe (MCR) se integra en los mismos títulos marco EuroWordNet de español, catalán, vasco, gallego y portugués que les gustó el inglés.
- El proyecto MultiWordNet, una WordNet multilingüe destinada a producir una WordNet italiana fuertemente alineada con la Princeton WordNet.
- OpenDutchWord Net, es una base de datos semántica lexical holandesa.
- OpenWN-PT es una versión portuguesa brasileña de la WordNet original libremente disponible para su descarga bajo licencia CC-BY-SA.
- plWordNet es una versión en idioma polaco de WordNet desarrollada por Wrocław University of Technology.
- PolNet es una versión en idioma polaco de WordNet desarrollada por la Universidad Adam Mickiewicz en Poznań (distribuida bajo la licencia CC BY-NC-ND 3.0).
Proyectos como BalkaNet y EuroWordNet hicieron posible la creación de redes de palabras independientes vinculadas a la original. Uno de esos proyectos fue Russian WordNet patrocinado por la Universidad Estatal de Medios de Comunicación de Petersburgo dirigida por S.A. Yablonsky o Russnet por la Universidad Estatal de San Petersburgo.
- UWN es una base de conocimiento léxico multilingüe que extiende WordNet para cubrir más de un millón de palabras en muchos idiomas diferentes.
- WOLF (WordNet Libre du Français), versión francesa de WordNet.
Datos vinculados
- BabelNet, una red semántica multilingüe muy grande con millones de conceptos obtenidos mediante la integración de WordNet y Wikipedia utilizando un algoritmo de mapeo automático.
- La ontología SUMO ha producido un mapeo entre todos los sinsets de WordNet (incluidos sustantivos, verbos, adjetivos y adverbios), y clases de SUMO. La adición más reciente de las asignaciones proporciona enlaces a todos los términos más específicos en la ontología MId-Level (MILO), que extiende SUMO.
- OpenCyc, una base abierta de ontología y conocimiento del conocimiento cotidiano del sentido común, tiene 12.000 términos vinculados a conjuntos de sinónimos de WordNet.
- DOLCE, es el primer módulo de la WonderWeb Foundational Ontologies Library (WFOL). Esta ontología superior se ha desarrollado a la luz de rigurosos principios ontológicos inspirados en la tradición filosófica, con una clara orientación hacia el lenguaje y la cognición. OntoWordNet es el resultado de una alineación experimental del nivel superior de WordNet con DOLCE. Se sugiere que tal alineación podría llevar a un WordNet "ontológicamente endulzado", destinado a ser conceptualmente más riguroso, cognitivamente transparente y eficientemente explotable en varias aplicaciones.
- DBpedia, una base de datos de información estructurada, está vinculada a WordNet.
- El eXtended WordNet es un proyecto en la Universidad de Texas en Dallas que pretende mejorar WordNet analizando semánticamente los brillos, poniendo así a disposición la información contenida en estas definiciones para sistemas de procesamiento automático de conocimientos. Está disponible libremente bajo una licencia similar a la de WordNet.
- El proyecto GCIDE produjo un diccionario combinando un dominio público Diccionario Webster de 1913 con algunas definiciones de WordNet y material proporcionado por voluntarios. Fue liberado bajo la licencia de copyleft GPL.
- ImageNet es una base de datos de imagen organizada según la jerarquía de WordNet (actualmente sólo los sustantivos), en la que cada nodo de la jerarquía es representado por cientos y miles de imágenes. Actualmente, tiene más de 500 imágenes por nodo en promedio.
- BioWordnet, una extensión biomédica de wordnet fue abandonada debido a problemas de estabilidad sobre versiones.
- WikiTax2WordNet, un mapeo entre sincronizaciones de WordNet y categorías de Wikipedia.
- WordNet++, un recurso que incluye más de millones de bordes semánticos cosechados de Wikipedia y pares de sinsets de WordNet.
- SentiWordNet, un recurso para apoyar aplicaciones de minería de opinión obtenidas etiquetando todos los sinsets Word 3.0Net según sus grados estimados de positividad, negatividad y neutralidad.
- ColorDict, es una aplicación Android a teléfonos móviles que utilizan la base de datos Wordnet y otros, como Wikipedia.
- UBY-LMF una base de datos de 10 recursos incluyendo WordNet.
Proyectos relacionados
- FrameNet es una base de datos lexical que comparte algunas similitudes con, y se refiere, WordNet.
- El marco de marcado Lexical (LMF) es un estándar ISO especificado en ISO/TC37 para definir un marco normalizado común para la construcción de léxicos, incluyendo WordNet. El subconjunto de LMF para Wordnet se llama Wordnet-LMF. Se ha realizado una instantánea dentro del proyecto KYOTO.
- UNL El programa es un proyecto bajo los auspicios de la ONUO destinado a consolidar los datos lexicosemanéticos de muchos idiomas que se utilizarán en los sistemas de traducción automática y extracción de información.
- Significado Monkey es un diccionario online gratuito basado en la base de datos WordNet.
- Diccionario. video es un diccionario de vídeo centrado en pronunciaciones. Su parte de texto se extiende desde WordNet.
Distribuciones
La base de datos de WordNet se distribuye como un paquete de diccionario (generalmente un solo archivo) para el siguiente software:
- Babylon
- GoldenDict
- Lingoes
Contenido relacionado
Guión de shell
Ventana (informática)
Ciclo