Wikcionario
Wiktionary (WIK-shə-nər-ee; WIK-shə-nerr-ee; rima con "dictionary") es un proyecto web multilingüe para crear un diccionario de términos de contenido gratuito (que incluye palabras, frases, proverbios, reconstrucciones lingüísticas, etc.) en todos los idiomas naturales y en varios idiomas artificiales. Estas entradas pueden contener definiciones, imágenes para ilustración, pronunciaciones, etimologías, inflexiones, ejemplos de uso, citas, términos relacionados y traducciones de términos a otros idiomas, entre otras características. Se edita en colaboración a través de un wiki. Su nombre es un acrónimo de las palabras wiki y diccionario. Está disponible en 188 idiomas y en inglés simple. Al igual que su proyecto hermano Wikipedia, Wiktionary está dirigido por la Fundación Wikimedia y está escrito en colaboración por voluntarios, denominados "Wiktionarians". Su software wiki, MediaWiki, permite que casi cualquier persona con acceso al sitio web cree y edite entradas.
Debido a que Wiktionary no está limitado por consideraciones de espacio de impresión, la mayoría de las ediciones de idiomas de Wiktionary brindan definiciones y traducciones de términos de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en tesauros.
Los datos de Wiktionary se utilizan con frecuencia en varias tareas de procesamiento de lenguaje natural.
Historia y desarrollo
Wiktionary se puso en línea el 12 de diciembre de 2002, siguiendo una propuesta de Daniel Alston y una idea de Larry Sanger, cofundador de Wikipedia. El 28 de marzo de 2004, se iniciaron los primeros Wikcionarios no ingleses en francés y polaco. Desde entonces, se han iniciado wikcionarios en muchos otros idiomas. Wiktionary estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. A partir de julio de 2021, Wiktionary presenta más de 30 millones de artículos (e incluso más entradas) en todas sus ediciones. La mayor de las ediciones en idiomas es el Wikcionario en inglés, con más de 7,3 millones de entradas, seguida por el Wikcionario en francés con más de 4,6 millones y el Wikcionario en malgache con más de 1,8 millones de entradas. Cuarenta y tres ediciones en idioma Wikcionario contienen más de 100.000 entradas cada una.
Muchas de las definiciones en las ediciones de idioma más grandes del proyecto fueron creadas por bots que encontraron formas creativas de generar entradas o (en raras ocasiones) importaron automáticamente miles de entradas de diccionarios publicados anteriormente. Siete de los 18 bots registrados en el English Wiktionary en 2007 crearon 163.000 de las entradas allí.
Otro de estos bots, "ThirdPersBot," fue responsable de la adición de una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "smoulders" como la "tercera persona singular del presente simple de smoulder." De las 1 269 938 definiciones que proporciona el Wikcionario inglés para 996 450 palabras en inglés, 478 068 son "forma de" definiciones de este tipo. Esto significa que incluso sin tales entradas, su cobertura de inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El tercer nuevo diccionario internacional del idioma inglés de Merriam-Webster, íntegro, por ejemplo, tiene 475 000 entradas (con muchos encabezados adicionales incorporados); el Oxford English Dictionary tiene 615 000 encabezados, pero también incluye el inglés medio, para el cual el English Wiktionary tiene un adicional 34.234 definiciones de brillo. Existen estadísticas detalladas para mostrar cuántas entradas de varios tipos existen.
El Wikcionario en inglés no se basa en bots en la medida en que lo hacen otras ediciones. Los Wikcionarios en francés y vietnamita, por ejemplo, importaron grandes secciones del Proyecto de diccionario vietnamita gratuito (FVDP), que proporciona diccionarios bilingües de contenido gratuito hacia y desde vietnamita. Estas entradas importadas constituyen prácticamente todo el contenido de la edición vietnamita. Al igual que la edición en inglés, el Wikcionario francés ha importado aproximadamente 20 000 entradas de la base de datos Unihan de caracteres chinos, japoneses, coreanos e indios. El Wikcionario francés creció rápidamente en 2006 gracias en gran parte a los bots que copiaron muchas entradas de diccionarios antiguos con licencia libre, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35,000 palabras), y usando bots para agregar palabras de otras ediciones de Wikcionario con traducciones al francés. La edición rusa creció en casi 80.000 entradas como "LXbot" Se agregaron entradas repetitivas (con encabezados, pero sin definiciones) para palabras en inglés y alemán.
Hasta julio de 2021, el Wikcionario en inglés tiene más de 791 870 definiciones glosas y más de 1 269 938 definiciones totales (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9 928 056 definiciones en todos los idiomas.
Logotipos
Wiktionary ha carecido históricamente de un logotipo uniforme en sus numerosas ediciones de idiomas. Algunas ediciones usan logotipos que representan una entrada de diccionario sobre el término "Wiktionary", basados en el logotipo anterior de Wiktionary en inglés, que fue diseñado por Brion Vibber, un desarrollador de MediaWiki. Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, se llevó a cabo un concurso de cuatro fases para adoptar un logotipo uniforme en Wikimedia Meta-Wiki de septiembre a octubre de 2006. Algunas comunidades adoptaron la entrada ganadora de "Smurrayinchester&# 34;, una cuadrícula de 3×3 de mosaicos de madera, cada uno con un carácter de un sistema de escritura diferente. Sin embargo, la encuesta no vio tanta participación de la comunidad Wiktionary como esperaban algunos miembros de la comunidad, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales.
En abril de 2009, el problema resucitó con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario abierto de tapa dura ganó una votación cara a cara contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. En los años siguientes, algunos wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de English Wiktionary recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". En julio de 2016, el Wikcionario inglés adoptó una variante de este logotipo. A partir del 4 de julio de 2016, 135 wikis, que representan el 61 % de las entradas de Wiktionary, usan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36 %) usan un logotipo textual y tres wikis (3 %) utilizan el diseño de 2009 de "AAEngelman".
Criterios para garantizar la precisión
Para garantizar la precisión, el Wikcionario en inglés tiene una política que exige que los términos estén certificados. Los términos en los principales idiomas, como inglés y chino, deben ser verificados por:
- uso claramente generalizado o
- uso en medios grabados permanentemente, lo que significa, en al menos tres casos independientes que abarcan al menos un año.
Para lenguas menos documentadas como el creek y lenguas extinguidas como el latín, un uso en un medio registrado permanentemente o una mención en una obra de referencia es verificación suficiente.
Multilingüe
Desde abril de 2023, hay sitios de Wiktionary para 188 idiomas, de los cuales 164 están activos y 24 están cerrados. Los sitios activos tienen 33.084.784 artículos y los sitios cerrados tienen 339 artículos. Hay 6.909.475 usuarios registrados de los cuales 5.777 están activos recientemente.
Los diez principales proyectos de lenguaje Wikcionario por número de artículos del espacio principal:
No | Idioma | Wiki | Bien. | Total | Edición | Admins | Usuarios | Usuarios activos | Archivos |
---|---|---|---|---|---|---|---|---|---|
1 | Inglés | en | 7,375,397 | 8,617,939 | 72.585.946 | 109 | 4.054,599 | 2.165 | 22 |
2 | Francés | fr | 4.643.470 | 5.115.388 | 31.976.517 | 34 | 347.428 | 456 | 6 |
3 | Malgache | mg | 1.869.916 | 1,927,449 | 29,700,771 | 2 | 10.403 | 11 | 3 |
4 | Chino | zh | 1.283.996 | 1,931,786 | 7.526,666 | 10 | 111.354 | 77 | 1 |
5 | Ruso | rupias | 1.263.458 | 2,729,965 | 12.905.996 | 14 | 295,517 | 261 | 179 |
6 | Alemán | de | 1.077.542 | 1.253,007 | 9.878.467 | 14 | 224,990 | 205 | 104 |
7 | Español | es | 916.152 | 972,952 | 5.113.559 | 9 | 153.378 | 125 | 14 |
8 | Serbo-croata | # | 914.768 | 916.488 | 1.470.044 | 3 | 8.010 | 15 | 3 |
9 | Suecia | sv | 873,975 | 915.916 | 3,899,425 | 13 | 54.119 | 66 | 1 |
10 | Dutch | # | 860.148 | 1.144.267 | 4.640.137 | 8 | 55.985 | 79 | 7 |
Para obtener una lista completa con los totales, consulte Estadísticas de Wikimedia:
Recepción crítica
La recepción crítica de Wikcionario ha sido mixta. En 2006, Jill Lepore escribió en el artículo "Noah's Ark" para El neoyorquino
No hay ningún espectáculo de manos en Wiktionary. Ni siquiera hay un personal editorial. "¡Sé tu propio léxicografo!", podría ser Wiktionary's Lema. ¿Quién necesita expertos? ¿Por qué pagar un buen dinero para un diccionario escrito por los lexicografos cuando podríamos mezclarnos entre nosotros?
Wiktionary no es tanto republicano o democrático como maoísta. Y es tan bueno como los libros de derechos de autor de los que se apilan.
La reseña de Keir Graff para Booklist fue menos crítica:
¿Hay un lugar para Wiktionary? Sin duda. La industria y el entusiasmo de sus muchos creadores son pruebas de que hay un mercado. Y es maravilloso tener otra fuente fuerte para usar al buscar los términos extraños que surgen en el mundo de cambio rápido de hoy y el ambiente en línea. Pero como con tantas fuentes Web (incluyendo esta columna), es mejor utilizado por usuarios sofisticados en conjunto con fuentes más reputables.
Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias de Wikipedia, y no avanzan más allá de una definición, aunque David Brooks en The Nashua Telegraph lo describió como "salvaje y confuso". Uno de los impedimentos para la cobertura independiente de Wiktionary es la continua confusión de que es simplemente una extensión de Wikipedia.
La medida de corrección de las inflexiones de un subconjunto de palabras polacas en el Wikcionario inglés mostró que estos datos gramaticales son muy estables. Solo se han corregido los datos de inflexión de 131 de 4.748 palabras polacas.
A partir de 2016, Wikcionario ha visto un uso creciente en el mundo académico.
Datos Wiktionary en el procesamiento del lenguaje natural
Wiktionary tiene datos semiestructurados. Los datos lexicográficos de Wiktionary se pueden convertir a un formato legible por máquina para poder usarlos en tareas de procesamiento de lenguaje natural.
La extracción de datos de Wiktionary es una tarea compleja. Existen las siguientes dificultades:
- (1) los cambios constantes y frecuentes en los datos y schemata
- (2) la heterogeneidad en la edición de la lengua Wiktionary schemata y
- (3) la naturaleza humana-céntrica de un wiki.
Hay varios analizadores para diferentes ediciones de idiomas de Wiktionary:
- DBpedia Wiktionary: un subproyecto de DBpedia, los datos se extraen de los Wiktionarios Inglés, Francés, Alemán y Ruso; los datos incluyen lenguaje, partes del habla, definiciones, relaciones semánticas y traducciones. La descripción declarativa del esquema de página, expresiones regulares y transductor de estado finito se utilizan para extraer información.
- JWKTL (Java Wiktionary Library): proporciona acceso a los vertederos de Wiktionary Inglés y Wiktionary Alemán a través de una API de Java Wiktionary. Los datos incluyen lenguaje, partes del habla, definiciones, citas, relaciones semánticas, etimologías y traducciones. JWKTL se distribuye bajo la Licencia Apache.
- wikokit: el parser de Inglés Wiktionario y ruso Wiktionary. Los datos analizados incluyen lenguaje, partes del habla, definiciones, citas, relaciones semánticas y traducciones. Este es un software multilicenciado de código abierto.
- Las entradas etimológicas se han analizado en el proyecto Etymological WordNet.
Los ejemplos de tareas de procesamiento de lenguaje natural que se han resuelto con la ayuda de los datos de Wiktionary incluyen:
- Traducción de máquina basada en reglas entre idioma holandés y afrikaans; datos de Wiktionary Inglés, Wiktionary holandés y Wikipedia se utilizaron con la plataforma de traducción automática Apertium.
- Construcción del diccionario legible por el analizador NULEX, que integra los recursos lingüísticos abiertos: Inglés Wiktionary, WordNet y VerbNet. El parser NULEX rasca el inglés Wiktionary para información tensa (verbos), forma plural y partes del discurso (nombres).
- Reconocimiento y síntesis del habla, donde se utilizó Wiktionary para crear automáticamente diccionarios de pronunciación. Se recuperaron pares de pronunciación de palabras de 6 ediciones lingüísticas (Czech, inglés, francés, español, polaco y alemán). Las denuncias son en términos del alfabeto fonético internacional. El sistema ASR basado en Inglés Wiktionary tiene la tasa de error de palabra más alta, donde cada tercer teléfono tiene que ser cambiado.
- Ingeniería ontología y construcción de redes semánticas.
- Ontología coincidente.
- simplificación de texto. Medero " Ostendorf evaluó la dificultad del vocabulario (detección del nivel de lectura) con la ayuda de datos Wiktionary. Se investigaron las propiedades de las palabras extraídas de las entradas de Wiktionary (longitud de definición y POS, sentido y recuentos de traducción). Medero " Ostendorf esperaba que
- (1) palabras muy comunes será más probable que tengan múltiples partes del discurso,
- (2) palabras comunes serán más propensos a tener múltiples sentidos,
- (3) palabras comunes serán más propensos a haber sido traducidos a varios idiomas. Estas características extraídas de las entradas Wiktionary fueron útiles para distinguir tipos de palabras que aparecen en artículos de Wikipedia en inglés simple de palabras que sólo aparecen en los artículos comparables en inglés estándar.
- Parte del discurso etiquetando. Li et al. (2012) construyeron grabadores multilingües de POS para ocho idiomas pobres en recursos sobre la base de modelos de Markov Wiktionary y ocultos.
- Análisis de sensibilidad.
"Wikidata: datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a Wikcionarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un "Lexeme" espacio de nombres en Wikidata. A partir de octubre de 2021, el proyecto ha acumulado más de 600 000 entradas de lexema de varios idiomas.
Contenido relacionado
Rúa
Kan
HHG