Recurso léxico

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

En lexicografía digital, procesamiento del lenguaje natural y humanidades digitales, un recurso léxico es un recurso lingüístico que consiste en datos sobre los lexemas del léxico de uno o más idiomas, por ejemplo, en forma de base de datos.

Características

Existen diferentes estándares para la edición legible por máquina de recursos léxicos, por ejemplo, Lexical Markup Framework (LMF), un estándar ISO para codificar recursos léxicos, que comprende un modelo de datos abstracto y una serialización XML, y OntoLex-Lemon, un vocabulario RDF para publicar recursos léxicos como gráficos de conocimiento en la web, por ejemplo, como Linguistic Linked Open Data.Dependiendo del tipo de idioma al que se dirige, un recurso léxico puede clasificarse como monolingüe, bilingüe o multilingüe. En los recursos léxicos bilingües y multilingües, las palabras pueden estar conectadas o no de un idioma a otro. Cuando están conectadas, la equivalencia de un idioma a otro se realiza mediante un enlace bilingüe (para recursos léxicos bilingües, por ejemplo, utilizando la relación vartrans:translatableAs en OntoLex-Lemon) o mediante notaciones multilingües (para recursos léxicos multilingües, por ejemplo, haciendo referencia al mismo ontolex:Concept en OntoLex-Lemon).También es posible crear y gestionar un recurso léxico compuesto por diferentes léxicos del mismo idioma; por ejemplo, un diccionario para palabras generales y uno o varios diccionarios para diferentes áreas especializadas.

Diccionario legible por máquina vs. diccionario NLP

Los recursos léxicos en lexicografía digital suelen denominarse diccionarios legibles por máquina (MRD, por sus siglas en inglés), un diccionario almacenado como datos de máquina (computadora) en lugar de estar impreso en papel. Se trata de un diccionario electrónico y una base de datos léxica. El término MRD suele contrastarse con el término diccionario de PLN, en el sentido de que un MRD es la versión electrónica de un diccionario previamente impreso en papel. Aunque ambos términos son utilizados por programas, se prefiere el término diccionario de PLN cuando el diccionario se creó desde cero con el PLN en mente.

Base de datos Lexical

Una base de datos léxica es un recurso léxico que cuenta con una base de datos de entorno de software asociada que permite acceder a su contenido. La base de datos puede estar diseñada a medida para la información léxica o ser una base de datos de propósito general donde se ha introducido dicha información.La información que normalmente se almacena en una base de datos léxica incluye la ortografía, la categoría léxica y los sinónimos de las palabras, así como las relaciones semánticas y fonológicas entre diferentes palabras o conjuntos de palabras.

Véase también

Marco de marcado Lexical (LMF), estándar ISO para la codificación de recursos lexicales, que incluye un modelo de datos abstracto y una serialización XML
OntoLex-Lemon, vocabulario RDF para la publicación de recursos lexicales en la web, por ejemplo, como Linguistic Linked Open Data
Serie de conferencias LREC
Diccionario legible por máquina
WordNet
Ontología árabe

Referencias

^ SARMA, Shikhar Kr, et al. Building multilingual lexical resources using wordnets: Estructura, diseño e implementación. En: Proceedings of the 3rd Workshop on Cognitive Aspects of the LexiconS. 161-170.
^ Francopoulo, Gil; Bel, Nuria; George, Monte; Calzolari, Nicoletta; Monachini, Monica; Pet, Mandy; Soria, Claudia (2009-03-01). "Multilingual resources for NLP in the lexical markup framework (LMF)" (PDF). Recursos de idiomas y evaluación. 43 1): 57 –70. doi:10.1007/s10579-008-9077-5. ISSN 1574-0218. S2CID 7697316.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020), Datos lingüísticos vinculados: Representación, Generación y Aplicaciones, Springer International Publishing, pp. 45 –59, doi:10.1007/978-3-030-30225-2_4, ISBN 978-3-030-30225-2, S2CID 214148590
^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. "Lexicon Model for Ontologies: Community Report, 10 May 2016 Final Community Group Report 10 May 2016". W3C. Retrieved 6 de diciembre 2019.
^ Gil Francopoulo (editado por) LMF Marco de Marcación Lexical, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)

Enlaces externos

Abrir palabra en inglés Net — Tinta de código abierto de Princeton WordNet
Wordnets in the world at Global WordNet Association
WordNet en la Universidad de Princeton (ya no se mantiene)
Ontología árabe en la Universidad Birzeit

Procesamiento del lenguaje natural

Condiciones generales

AI-complete
Bolsa de palabras
n-gram
- Bigram
- Trigram
Lingüística computacional
Comprensión del idioma natural
Para palabras
Procesamiento de texto

Análisis de textos

Argument mining
Extracción de la localización
Minería de conceptos
Resolución básica
Procesamiento lingüístico profundo
Lectura distante
Extracción de información
Reconocimiento de la entidad
Aprendizaje de ontología
Parsing
- Paring semántico
- Paráctica sintáctica
Parte del discurso
Análisis semántico
Etiquetas del papel semántico
Decomposición semántica
Semántica semejanza
Análisis de la sensibilidad

Extracción de terminología
Minería de textos
Consecuencia textual
Truecasing
Desambiguación de sentido de Word
Inducción de sentido de Word

Serie de sesiones de texto	Procesamiento a plazo determinado Lemmatisation Análisis Lexical Texto retorcido Stemming Segmento de las penas Segmentación de palabras

Resumiendo automático

Resumen de documentos múltiples
Extracción de la condena
simplificación del texto

Traducción automática

Asistencia informática
Base de ejemplos
Basado en normas
Estadística
Bases de transferencia
Neural

Modelos de semántica de distribución

BERT
Matriz a plazo de documento
Explicit semantic analysis
FastText
Glove
Modelo de idioma (grande)
Análisis semántico latente
Seq2seq
Incrustación de palabras
Word2vec

Recursos de idiomas,
datasets and corpora

Tipos y Normas	Corpus linguistics Recursos Lexicales Linguistic Linked Open Data Diccionario legible por máquina Texto paralelo PropBank Red semántica Simple Knowledge Organization System Speech corpus Texto corpus Thesaurus (información recuperación) Treebank Dependencias universales
Datos	BabelNet Bank of English DBpedia FrameNet Google Ngram Viewer UBY WordNet Wikidata

Identificación automática y captura de datos

Reconocimiento del discurso
Secundación de discursos
Síntesis de discurso
Generación de lenguaje natural
Reconocimiento de caracteres ópticos

Modelo temático

Clasificación de documentos
Latent Dirichlet allocation
Pachinko allocation

Revisor asistido por computadora

Ensayo automatizado
Concordador
Comprobador de gramática
Texto predictivo
Evaluación de la denuncia
Chequeador de carga

Interfaz de lenguaje natural

Chatbot
Ficción interactiva (cf. Sintaxis)
Respuesta a la pregunta
Asistente virtual
Interfaz de usuario

Relacionados

Semántica formal
Alucinación
Herramienta de lenguaje natural
spa Cy

Más resultados...