Extracción de terminología

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

La extracción de terminología (también conocida como extracción de términos, extracción de glosario, reconocimiento de términos o minería de terminología) es una subtarea de la extracción de información. El objetivo de la extracción de terminología es extraer automáticamente los términos relevantes de un corpus determinado.

En la era de la web semántica, un número cada vez mayor de comunidades y empresas en red comenzaron a acceder e interoperar a través de Internet. Modelar estas comunidades y sus necesidades de información es importante para varias aplicaciones web, como los rastreadores web basados en temas, los servicios web, los sistemas de recomendación, etc. El desarrollo de la extracción de terminología también es esencial para la industria lingüística.

Uno de los primeros pasos para modelar un dominio de conocimiento es recopilar un vocabulario de términos relevantes para el dominio, que constituyen la manifestación superficial lingüística de los conceptos del dominio. En la literatura se han descrito varios métodos para extraer automáticamente términos técnicos de los depósitos de documentos específicos del dominio.

Normalmente, los métodos de extracción automática de términos utilizan procesadores lingüísticos (etiquetado de partes del discurso, fragmentación de frases) para extraer candidatos terminológicos, es decir, frases nominales terminológicas sintácticamente plausibles. Las frases nominales incluyen frases compuestas (p. ej., "tarjeta de crédito"), frases nominales adjetivas (p. ej., "oficina local de información turística") y frases nominales preposicionales (p. ej., "junta directiva"). En inglés, las dos primeras (frases nominales compuestas y adjetivas) son las más frecuentes. Luego, las entradas terminológicas se filtran de la lista de candidatos utilizando métodos estadísticos y de aprendizaje automático. Una vez filtradas, debido a su baja ambigüedad y alta especificidad, estos términos son particularmente útiles para conceptualizar un dominio de conocimiento o para respaldar la creación de una ontología de dominio o una base terminológica. Además, la extracción de terminología es un punto de partida muy útil para la similitud semántica, la gestión del conocimiento, la traducción humana y la traducción automática, etc.

Extracción bilingüe de terminología

Los métodos de extracción de terminología se pueden aplicar a corpus paralelos. Si se combinan, por ejemplo, con estadísticas de coocurrencia, se pueden obtener candidatos para traducciones de términos. También se puede extraer terminología bilingüe de corpus comparables (corpus que contienen textos dentro del mismo tipo de texto, dominio pero no traducciones de documentos entre sí).

Véase también

  • Lingüística computacional
  • Glosario
  • Procesamiento del lenguaje natural
  • Intología de dominio
  • Indización del sujeto
  • Taxonomía (general)
  • Terminología
  • Minería de textos
  • simplificación del texto

Referencias

  1. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Extracción de Keyphrase Automático sin supervisión usando la Propagación de Afinidad". Avances en sistemas informáticos de inteligencia. Avances en Sistemas Inteligentes y Computación. Vol. 650. pp. 222–235. doi:10.1007/978-319-66939-7_19. ISBN 978-319-66938-0.
  2. ^ Menczer F., Pant G. y Srinivasan P. Topic-Driven Crawlers: machine learning issues.
  3. ^ Fan J. y Kambhampati S. A Snapshot of Public Web Services, en ACM SIGMOD Archivo de registros Volumen 34 Edición 1 (marzo 2005).
  4. ^ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.
  5. ^ Bourigault D. and Jacquemin C. Term Extraction+ Mandato Clustering: an integrated platform for computer-aided term Archived 2006-06-19 at the Wayback Machine, in Proc. of EACL, 1999.
  6. ^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Adquisición automática y clasificación de terminología utilizando un corpus etiquetado en el dominio de la biología molecular". Terminología. 7 (2): 239–257. doi:10.1075/term.7.2.07col.
  7. ^ K. Frantzi, S. Ananiadou y H. Mima. (2000). Reconocimiento automático de términos multi-palabra: el método C-value/NC-value. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
  8. ^ K. Frantzi, S. Ananiadou y J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
  9. ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Extracción y utilización geográfica en el sistema de búsqueda y entrega de información para IBM Technical Support" (PDF). IBM Systems Journal. 43 (3): 546–563. doi:10.1147/sj.433.0546.
  10. ^ Navigli R. y Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179
  11. ^ Oliver, A. y Vàzquez, M. TBXHerramientas: Una herramienta gratuita, rápida y flexible para la extracción de terminología automática. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473-479
  12. ^ Sí. Park, R. J. Byrd, B. Boguraev. "Extracción glosaria automática: más allá de la identificación de terminología", Conferencia Internacional sobre Linguística Computacional, Actas de la 19a conferencia internacional sobre lingüística computacional - Taipei, Taiwán, 2002.
  13. ^ Sclano, F. y Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. Aparecer en Proc. de la 3a Conferencia Internacional sobre Interoperabilidad para Software Empresarial y Aplicaciones (I-ESA 2007). Funchal (Isla de Maceira), Portugal, 28 al 30 de marzo de 2007.
  14. ^ P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.
  15. ^ Wermter J. and Hahn U. Finding New term in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada
  16. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  17. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  18. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Extracción de Keyphrase Automático sin supervisión usando la Propagación de Afinidad". Avances en sistemas informáticos de inteligencia. Avances en Sistemas Inteligentes y Computación. Vol. 650. pp. 222–235. doi:10.1007/978-319-66939-7_19. ISBN 978-319-66938-0.
  19. ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Extracción bilingüe de terminología de corpora paralela usando alineación basada en la torta". Terminología. 19 (1): 1–30. doi:10.1075/term.19.1.01mac. hdl:1854/LU-2128573.
  20. ^ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlín: Springer-Verlag
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save