Base de datos digital de palabras
En lexicografía digital, procesamiento del lenguaje natural y humanidades digitales, un recurso léxico es un recurso lingüístico que consiste en datos sobre los lexemas del léxico de uno o más idiomas, por ejemplo, en forma de base de datos.
Características
Existen diferentes estándares para la edición legible por máquina de recursos léxicos, por ejemplo, Lexical Markup Framework (LMF), un estándar ISO para codificar recursos léxicos, que comprende un modelo de datos abstracto y una serialización XML, y OntoLex-Lemon, un vocabulario RDF para publicar recursos léxicos como gráficos de conocimiento en la web, por ejemplo, como Linguistic Linked Open Data.Dependiendo del tipo de idioma al que se dirige, un recurso léxico puede clasificarse como monolingüe, bilingüe o multilingüe. En los recursos léxicos bilingües y multilingües, las palabras pueden estar conectadas o no de un idioma a otro. Cuando están conectadas, la equivalencia de un idioma a otro se realiza mediante un enlace bilingüe (para recursos léxicos bilingües, por ejemplo, utilizando la relación
vartrans:translatableAs en OntoLex-Lemon) o mediante notaciones multilingües (para recursos léxicos multilingües, por ejemplo, haciendo referencia al mismo
ontolex:Concept en OntoLex-Lemon).También es posible crear y gestionar un recurso léxico compuesto por diferentes léxicos del mismo idioma; por ejemplo, un diccionario para palabras generales y uno o varios diccionarios para diferentes áreas especializadas.
Diccionario legible por máquina vs. diccionario NLP
Los recursos léxicos en lexicografía digital suelen denominarse diccionarios legibles por máquina (MRD, por sus siglas en inglés), un diccionario almacenado como datos de máquina (computadora) en lugar de estar impreso en papel. Se trata de un diccionario electrónico y una base de datos léxica. El término MRD suele contrastarse con el término diccionario de PLN, en el sentido de que un MRD es la versión electrónica de un diccionario previamente impreso en papel. Aunque ambos términos son utilizados por programas, se prefiere el término diccionario de PLN cuando el diccionario se creó desde cero con el PLN en mente.
Base de datos Lexical
Una base de datos léxica es un recurso léxico que cuenta con una base de datos de entorno de software asociada que permite acceder a su contenido. La base de datos puede estar diseñada a medida para la información léxica o ser una base de datos de propósito general donde se ha introducido dicha información.La información que normalmente se almacena en una base de datos léxica incluye la ortografía, la categoría léxica y los sinónimos de las palabras, así como las relaciones semánticas y fonológicas entre diferentes palabras o conjuntos de palabras.
Véase también
- Marco de marcado Lexical (LMF), estándar ISO para la codificación de recursos lexicales, que incluye un modelo de datos abstracto y una serialización XML
- OntoLex-Lemon, vocabulario RDF para la publicación de recursos lexicales en la web, por ejemplo, como Linguistic Linked Open Data
- Serie de conferencias LREC
- Diccionario legible por máquina
- WordNet
- Ontología árabe
Referencias
- ^ SARMA, Shikhar Kr, et al. Building multilingual lexical resources using wordnets: Estructura, diseño e implementación. En: Proceedings of the 3rd Workshop on Cognitive Aspects of the LexiconS. 161-170.
- ^ Francopoulo, Gil; Bel, Nuria; George, Monte; Calzolari, Nicoletta; Monachini, Monica; Pet, Mandy; Soria, Claudia (2009-03-01). "Multilingual resources for NLP in the lexical markup framework (LMF)" (PDF). Recursos de idiomas y evaluación. 43 1): 57 –70. doi:10.1007/s10579-008-9077-5. ISSN 1574-0218. S2CID 7697316.
- ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020), Datos lingüísticos vinculados: Representación, Generación y Aplicaciones, Springer International Publishing, pp. 45 –59, doi:10.1007/978-3-030-30225-2_4, ISBN 978-3-030-30225-2, S2CID 214148590
- ^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. "Lexicon Model for Ontologies: Community Report, 10 May 2016 Final Community Group Report 10 May 2016". W3C. Retrieved 6 de diciembre 2019.
- ^ Gil Francopoulo (editado por) LMF Marco de Marcación Lexical, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
Enlaces externos
- Abrir palabra en inglés Net — Tinta de código abierto de Princeton WordNet
- Wordnets in the world at Global WordNet Association
- WordNet en la Universidad de Princeton (ya no se mantiene)
- Ontología árabe en la Universidad Birzeit
Procesamiento del lenguaje natural |
---|
Condiciones generales | - AI-complete
- Bolsa de palabras
- n-gram
- Lingüística computacional
- Comprensión del idioma natural
- Para palabras
- Procesamiento de texto
|
---|
Análisis de textos | - Argument mining
- Extracción de la localización
- Minería de conceptos
- Resolución básica
- Procesamiento lingüístico profundo
- Lectura distante
- Extracción de información
- Reconocimiento de la entidad
- Aprendizaje de ontología
- Parsing
- Paring semántico
- Paráctica sintáctica
- Parte del discurso
- Análisis semántico
- Etiquetas del papel semántico
- Decomposición semántica
- Semántica semejanza
- Análisis de la sensibilidad
- Extracción de terminología
- Minería de textos
- Consecuencia textual
- Truecasing
- Desambiguación de sentido de Word
- Inducción de sentido de Word
Serie de sesiones de texto | - Procesamiento a plazo determinado
- Lemmatisation
- Análisis Lexical
- Texto retorcido
- Stemming
- Segmento de las penas
- Segmentación de palabras
|
---|
|
---|
Resumiendo automático | - Resumen de documentos múltiples
- Extracción de la condena
- simplificación del texto
|
---|
Traducción automática | - Asistencia informática
- Base de ejemplos
- Basado en normas
- Estadística
- Bases de transferencia
- Neural
|
---|
Modelos de semántica de distribución | - BERT
- Matriz a plazo de documento
- Explicit semantic analysis
- FastText
- Glove
- Modelo de idioma (grande)
- Análisis semántico latente
- Seq2seq
- Incrustación de palabras
- Word2vec
|
---|
Recursos de idiomas, datasets and corpora | Tipos y Normas | - Corpus linguistics
- Recursos Lexicales
- Linguistic Linked Open Data
- Diccionario legible por máquina
- Texto paralelo
- PropBank
- Red semántica
- Simple Knowledge Organization System
- Speech corpus
- Texto corpus
- Thesaurus (información recuperación)
- Treebank
- Dependencias universales
|
---|
Datos | - BabelNet
- Bank of English
- DBpedia
- FrameNet
- Google Ngram Viewer
- UBY
- WordNet
- Wikidata
|
---|
|
---|
Identificación automática y captura de datos | - Reconocimiento del discurso
- Secundación de discursos
- Síntesis de discurso
- Generación de lenguaje natural
- Reconocimiento de caracteres ópticos
|
---|
Modelo temático | - Clasificación de documentos
- Latent Dirichlet allocation
- Pachinko allocation
|
---|
Revisor asistido por computadora | - Ensayo automatizado
- Concordador
- Comprobador de gramática
- Texto predictivo
- Evaluación de la denuncia
- Chequeador de carga
|
---|
Interfaz de lenguaje natural | - Chatbot
- Ficción interactiva (cf. Sintaxis)
- Respuesta a la pregunta
- Asistente virtual
- Interfaz de usuario
|
---|
Relacionados | - Semántica formal
- Alucinación
- Herramienta de lenguaje natural
- spa Cy
|
---|
Más resultados...