Lingüística de Internet
La lingüística de Internet es un dominio de la lingüística defendido por el lingüista inglés David Crystal. Estudia nuevos estilos y formas de lenguaje que han surgido bajo la influencia de Internet y de otros nuevos medios, como los mensajes de texto del Servicio de Mensajes Cortos (SMS). Desde el comienzo de la interacción humano-computadora (HCI) que condujo a la comunicación mediada por computadora (CMC) y la comunicación mediada por Internet (IMC), expertos como Gretchen McCulloch han reconocido que la lingüística tiene un papel contribuyente, en términos de web. interfaz y usabilidad. Estudiar el idioma emergente en Internet puede ayudar a mejorar la organización conceptual, la traducción y la usabilidad web. Tal estudio tiene como objetivo beneficiar tanto a los lingüistas como a los usuarios de la web combinados.
El estudio de la lingüística de Internet puede tener lugar a través de cuatro perspectivas principales: sociolingüística, educación, estilística y lingüística aplicada. Se han desarrollado otras dimensiones como resultado de nuevos avances tecnológicos, que incluyen el desarrollo de la Web como corpus y la difusión e influencia de las variaciones estilísticas provocadas por la difusión de Internet, a través de los medios de comunicación y las obras literarias. En vista del creciente número de usuarios conectados a Internet, el futuro lingüístico de Internet aún está por determinarse, ya que continúan surgiendo nuevas tecnologías mediadas por computadora y las personas adaptan sus idiomas para adaptarse a estos nuevos medios.Internet sigue desempeñando un papel importante tanto para animar a la gente como para desviar la atención del uso de los idiomas.
Perspectivas principales
David Crystal ha identificado cuatro perspectivas principales para futuras investigaciones: la perspectiva sociolingüística, la perspectiva educativa, la perspectiva estilística y la perspectiva aplicada. Las cuatro perspectivas están efectivamente interrelacionadas y se afectan unas a otras.
Perspectiva sociolingüística
Esta perspectiva se ocupa de cómo la sociedad ve el impacto del desarrollo de Internet en los idiomas. La llegada de Internet ha revolucionado la comunicación de muchas maneras; cambió la forma en que las personas se comunican y creó nuevas plataformas con un impacto social de gran alcance. Las vías importantes incluyen, entre otros, mensajes de texto SMS, correos electrónicos, grupos de chat, mundos virtuales y la Web.
La evolución de estos nuevos medios de comunicación ha suscitado mucha preocupación con respecto a la forma en que se está utilizando el lenguaje. Según Crystal (2005), estas preocupaciones no carecen de fundamento ni han pasado desapercibidas en la historia: casi siempre surgen cuando un nuevo avance tecnológico influye en los idiomas; como se vio en el siglo XV cuando se introdujo la imprenta, el siglo XIX cuando se inventó el teléfono y el siglo XX cuando la radiodifusión comenzó a penetrar en nuestra sociedad.
A nivel personal, CMC como la mensajería de texto SMS y el correo electrónico móvil (push mail) ha mejorado enormemente la comunicación instantánea. Algunos ejemplos incluyen el iPhone y el BlackBerry.
En las escuelas, no es raro que los educadores y estudiantes reciban cuentas de correo electrónico escolares personalizadas para fines de comunicación e interacción. Las discusiones en el aula se llevan cada vez más a Internet en forma de foros de discusión. Por ejemplo, en la Universidad Tecnológica de Nanyang, los estudiantes participan en el aprendizaje colaborativo en el portal de la universidad, edvENTURE, donde participan en debates en foros y cuestionarios en línea y ven podcasts preparados por los instructores del curso, entre otros. iTunes U en 2008 comenzó a colaborar con universidades cuando convirtieron el servicio de música de Apple en una tienda que ofrece conferencias académicas y materiales académicos de forma gratuita; se han asociado con más de 600 instituciones en 18 países, incluidas las universidades de Oxford, Cambridge y Yale.
Estas formas de medios y redes sociales académicas están programadas para aumentar a medida que los educadores de todo el mundo continúan buscando nuevas formas de involucrar mejor a los estudiantes. Es común que los estudiantes de la Universidad de Nueva York interactúen con "oradores invitados que opinan a través de Skype, personal de la biblioteca que brinda apoyo a través de mensajes instantáneos y estudiantes que acceden a los recursos de la biblioteca desde fuera del campus". Esto afectará la forma en que se usa el idioma a medida que los estudiantes y los maestros comiencen a usar más estas plataformas CMC.
A nivel profesional, es habitual que las empresas tengan sus ordenadores y portátiles conectados a Internet (a través de conexión a Internet por cable e inalámbrica), y que los empleados tengan cuentas de correo electrónico individuales. Esto facilita enormemente la comunicación interna (entre el personal de la empresa) y externa (con otras partes fuera de la propia organización). Las comunicaciones móviles, como los teléfonos inteligentes, se están abriendo paso cada vez más en el mundo corporativo. Por ejemplo, en 2008, Apple anunció su intención de intensificar activamente sus esfuerzos para ayudar a las empresas a incorporar el iPhone en su entorno empresarial, gracias a los avances tecnológicos en la optimización de las funciones integradas (correo electrónico, calendario y gestión de contactos) utilizando ActiveSync.
En general, estos nuevos CMC que son posibles gracias a Internet han alterado la forma en que las personas usan el lenguaje: hay una mayor informalidad y, en consecuencia, un temor creciente a su deterioro. Sin embargo, como dice David Crystal, estos deben verse de manera positiva, ya que reflejan el poder de la creatividad de un idioma.
Temas
La sociolingüística de Internet también puede examinarse a través de cinco temas interconectados.
- Multilingüismo: analiza la prevalencia y el estado de varios idiomas en Internet.
- Cambio de idioma: desde una perspectiva sociolingüística, el cambio de idioma está influenciado por las limitaciones físicas de la tecnología (p. ej., texto mecanografiado) y las prioridades socioeconómicas cambiantes, como la globalización. Explora los cambios lingüísticos a lo largo del tiempo, con énfasis en la jerga de Internet.
- Discurso de conversación – Explora los cambios en los patrones de interacción social y práctica comunicativa en Internet.
- Difusión estilística: implica el estudio de la difusión de la jerga de Internet y las formas lingüísticas relacionadas en el uso común. A medida que cambia el lenguaje, el discurso de la conversación y la difusión estilística se superponen con el aspecto de la estilística del lenguaje.Ver a continuación: Perspectiva estilística
- Metalenguaje y lingüística popular: implica observar la forma en que se etiquetan y discuten estas formas y cambios lingüísticos en Internet (por ejemplo, el impacto de la jerga de Internet resultó en la 'muerte' del apóstrofo y la pérdida de mayúsculas).
Perspectiva educativa
La perspectiva educativa de la lingüística de Internet examina el impacto de Internet en el uso formal del idioma, específicamente en el inglés estándar, que a su vez afecta la educación del idioma. El auge y la rápida difusión del uso de Internet ha traído consigo nuevas características lingüísticas específicas solo para la plataforma de Internet. Estos incluyen, pero no se limitan a, un aumento en el uso del lenguaje escrito informal, la inconsistencia en los estilos y la estilística escritos y el uso de nuevas abreviaturas en los chats de Internet y mensajes de texto SMS, donde las limitaciones de la tecnología en el conteo de palabras contribuyeron al aumento. de nuevas abreviaturas. Dichos acrónimos existen principalmente por razones prácticas: para reducir el tiempo y el esfuerzo necesarios para comunicarse a través de estos medios, además de las limitaciones tecnológicas. Ejemplos de acrónimos comunes incluyenlol (por reírse a carcajadas; una expresión general de risa), omg (oh, Dios mío) y gtg (tengo que irme).
La perspectiva educativa se ha establecido considerablemente en la investigación sobre el impacto de Internet en la enseñanza de idiomas. Es un aspecto importante y crucial ya que afecta e involucra la educación de las actuales y futuras generaciones de estudiantes en el uso adecuado y oportuno del lenguaje informal que surge del uso de Internet. Existe preocupación por la creciente infiltración del uso del lenguaje informal y el uso incorrecto de palabras en situaciones académicas o formales, como el uso de palabras casuales como "chico" o la elección de la palabra "excluir" en lugar de "preceder" en trabajos académicos. por estudiantes También hay problemas con la ortografía y la gramática que ocurren con mayor frecuencia entre los trabajos académicos de los estudiantes, como lo señalaron los educadores, con el uso de abreviaturas como "u" para "usted" y "
Lingüistas y profesores como Eleanor Johnson sospechan que los errores generalizados en la escritura están fuertemente relacionados con el uso de Internet, donde los educadores también han informado nuevos tipos de errores ortográficos y gramaticales en los trabajos de los estudiantes. Sin embargo, no hay evidencia científica que confirme la conexión propuesta. Naomi S. Baron (2008) argumenta en Always On que los escritos de los estudiantes sufren poco impacto por el uso de la comunicación mediada por Internet (IMC), como el chat de Internet, los mensajes de texto SMS y el correo electrónico. Un estudio de 2009 publicado por el British Journal of Developmental Psychology descubrió que los estudiantes que enviaban mensajes de texto con regularidad (enviaban mensajes a través de SMS usando un teléfono móvil) mostraban una gama más amplia de vocabulario y esto puede tener un impacto positivo en su desarrollo de la lectura.
Aunque el uso de Internet resultó en estilísticas que no se consideran apropiadas en el uso académico y formal del lenguaje, el uso de Internet puede no obstaculizar la enseñanza del idioma sino ayudarla. Internet ha demostrado de diferentes maneras que puede proporcionar beneficios potenciales para mejorar el aprendizaje de idiomas, especialmente en el aprendizaje de un segundo idioma o un idioma extranjero. La educación de idiomas a través de Internet en relación con la lingüística de Internet se aplica, sobre todo, a través del aspecto de la comunicación (uso de correos electrónicos, foros de discusión, mensajes de chat, blogs, etc.). IMC permite una mayor interacción entre los estudiantes de idiomas y los hablantes nativos del idioma, proporcionando mayores correcciones de errores y mejores oportunidades de aprendizaje del idioma estándar, en el proceso que permite adquirir habilidades específicas como la negociación y la persuasión.
Perspectiva estilística
Esta perspectiva examina cómo Internet y sus tecnologías relacionadas han fomentado nuevas y diferentes formas de creatividad en el lenguaje, especialmente en la literatura. Considera Internet como un medio a través del cual han surgido nuevos fenómenos lingüísticos. Este nuevo modo de lenguaje es interesante de estudiar porque es una amalgama de lenguajes hablados y escritos. Por ejemplo, la escritura tradicional es estática en comparación con la naturaleza dinámica del nuevo idioma en Internet, donde las palabras pueden aparecer en diferentes colores y tamaños de fuente en la pantalla de la computadora.Sin embargo, este nuevo modo de lenguaje también contiene otros elementos que no se encuentran en los lenguajes naturales. Un ejemplo es el concepto de encuadre que se encuentra en los correos electrónicos y foros de discusión. Al responder a los correos electrónicos, las personas suelen utilizar el mensaje de correo electrónico del remitente como marco para escribir sus propios mensajes. Pueden optar por responder a ciertas partes de un mensaje de correo electrónico y omitir otras partes. En los foros de discusión, uno puede iniciar un nuevo hilo y cualquiera, independientemente de su ubicación física, puede responder a la idea o pensamiento que se estableció a través de Internet. Esto es algo que normalmente no se encuentra en el lenguaje escrito.
La investigación futura también incluye nuevas variedades de expresiones que Internet y sus diversas tecnologías están produciendo constantemente y sus efectos no solo en los lenguajes escritos sino también en sus formas habladas. El estilo comunicativo del lenguaje de Internet se observa mejor en los canales de CMC a continuación, ya que a menudo hay intentos de superar las restricciones tecnológicas, como los retrasos en el tiempo de transmisión, y restablecer las señales sociales que a menudo son vagas en el texto escrito.
Teléfonos móviles
Los teléfonos móviles (también llamados teléfonos celulares) tienen un potencial expresivo más allá de sus funciones comunicativas básicas. Esto se puede ver en los concursos de poesía de mensajes de texto como el que organiza The Guardian. El límite de 160 caracteres que impone el celular ha motivado a los usuarios a ejercitar su creatividad lingüística para superarlos. Un ejemplo similar de nueva tecnología con restricciones de caracteres es Twitter, que tiene un límite de 280 caracteres. Ha habido debates sobre si estas nuevas formas abreviadas introducidas en los Tweets de los usuarios son "vagas" o si son fragmentos creativos de comunicación. A pesar del debate en curso, no hay duda de que Twitter ha contribuido al panorama lingüístico con nuevas jergas y también ha generado una nueva dimensión de la comunicación.
El teléfono celular también ha creado un nuevo género literario: las novelas para teléfonos celulares. Una típica novela para celular consta de varios capítulos que los lectores descargan en breves entregas. Estas novelas están en su forma "en bruto", ya que no pasan por procesos de edición como las novelas tradicionales. Están escritos en oraciones cortas, similares a los mensajes de texto. Los autores de tales novelas también pueden recibir comentarios y nuevas ideas de sus lectores a través de correos electrónicos o canales de comentarios en línea. A diferencia de la escritura tradicional de novelas, las ideas de los lectores a veces se incorporan a la trama o los autores también pueden decidir cambiar la trama de su historia de acuerdo con la demanda y la popularidad de su novela (normalmente medida por el número de descargas). A pesar de su popularidad, también ha habido críticas sobre la "falta de vocabulario diverso" y la mala gramática de las novelas.
Blogs
Los blogs han generado nuevas formas de escribir diarios y, desde una perspectiva lingüística, el lenguaje utilizado en los blogs es "en su forma más 'desnuda'", publicado para que el mundo lo vea sin pasar por el proceso de edición formal. Esto es lo que hace que los blogs se destaquen porque casi todas las demás formas de lenguaje impreso han pasado por algún tipo de edición y estandarización. David Crystal afirmó que los blogs eran "el comienzo de una nueva etapa en la evolución del lenguaje escrito". Los blogs se han vuelto tan populares que se han expandido más allá de los blogs escritos, con la aparición de los fotoblogs, los videoblogs, los audioblogs y los moblogs. Estos desarrollos en los blogs interactivos han creado nuevas convenciones y estilos lingüísticos, y se espera que surjan más en el futuro.
Mundos virtuales
Los mundos virtuales brindan información sobre cómo los usuarios están adaptando el uso del lenguaje natural para la comunicación dentro de estos nuevos medios. El lenguaje de Internet que ha surgido a través de las interacciones de los usuarios en salas de chat basadas en texto y mundos simulados por computadora ha llevado al desarrollo de jergas dentro de las comunidades digitales. Ejemplos de estos incluyen pwn y noob. Los emoticonos son un ejemplo más de cómo los usuarios han adaptado distintas expresiones a las limitaciones de la comunicación en el ciberespacio, una de las cuales es la "pérdida de emotividad".
La comunicación en nichos como los juegos de rol (RPG) de dominios multiusuario (MUD) y mundos virtuales es altamente interactivo, con énfasis en la velocidad, la brevedad y la espontaneidad. Como resultado, CMC es generalmente más vibrante, volátil, desestructurado y abierto. A menudo hay una organización compleja de secuencias y estructuras de intercambio evidentes en la conexión de hilos conversacionales y turnos cortos. Algunas de las estrategias de CMC utilizadas incluyen el uso de mayúsculas para palabras como ÉNFASIS, el uso de símbolos como el asterisco para encerrar palabras como se ve en *énfasis* y el uso creativo de puntuación como ???!?!?!? .Los símbolos también se utilizan para funciones discursivas, como el asterisco como marcador de reparación conversacional y las flechas y quilates como deixis y marcadores de referencia. Además de contribuir a estas nuevas formas en el lenguaje, los mundos virtuales también se están utilizando para enseñar idiomas. El aprendizaje de idiomas del mundo virtual proporciona a los estudiantes simulaciones de entornos de la vida real, lo que les permite encontrar formas creativas de mejorar sus habilidades lingüísticas. Los mundos virtuales son buenas herramientas para el aprendizaje de idiomas entre los estudiantes más jóvenes porque ya ven estos lugares como un "lugar natural para aprender y jugar".
Correo electrónico
Una de las tecnologías más populares relacionadas con Internet que se estudiará bajo esta perspectiva es el correo electrónico, que ha ampliado la estilística de los idiomas de muchas maneras. Un estudio realizado sobre el perfil lingüístico de los correos electrónicos ha demostrado que existe un híbrido de estilos de habla y escritura en términos de formato, gramática y estilo. El correo electrónico está reemplazando rápidamente a la escritura tradicional de cartas debido a su conveniencia, velocidad y espontaneidad.A menudo se relaciona con la informalidad, ya que se siente temporal y se puede eliminar fácilmente. Sin embargo, a medida que madura este medio de comunicación, el correo electrónico ya no se limita al envío de mensajes informales entre amigos y familiares. En cambio, las correspondencias comerciales se realizan cada vez más a través de correos electrónicos. Los solicitantes de empleo también utilizan correos electrónicos para enviar sus currículos a posibles empleadores. El resultado de un cambio hacia usos más formales será un medio que represente una variedad de estilos formales e informales.
Si bien se ha culpado al correo electrónico por el aumento del uso del lenguaje informal por parte de los estudiantes en su trabajo escrito, David Crystal argumenta que el correo electrónico "no es una amenaza para la educación lingüística" porque el correo electrónico con su variedad de expresividad estilística puede actuar como un dominio para que los estudiantes de idiomas tomen sus propias decisiones lingüísticas de manera responsable. Además, la alta propensión de la generación más joven a usar el correo electrónico puede mejorar sus habilidades de escritura y comunicación debido a los esfuerzos que están haciendo para formular sus pensamientos e ideas, aunque a través de un medio digital.
Mensajería instantánea
Al igual que otras formas de comunicación en línea, la mensajería instantánea también ha desarrollado sus propias siglas y formas abreviadas. Sin embargo, la mensajería instantánea es bastante diferente del correo electrónico y los grupos de chat porque permite que los participantes interactúen entre sí en tiempo real mientras conversan en privado. Con la mensajería instantánea, existe una dimensión adicional de familiaridad entre los participantes. Este mayor grado de intimidad permite una mayor informalidad en el lenguaje y las "idiosincrasias tipográficas". También hay mayores ocurrencias de variación estilística porque puede haber una diferencia de edad muy amplia entre los participantes. Por ejemplo, una nieta puede ponerse al día con su abuela a través de la mensajería instantánea. A diferencia de los grupos de chat donde los participantes se reúnen con intereses compartidos, aquí no hay presión para conformarse con el lenguaje.
Perspectiva aplicada
La perspectiva aplicada ve la explotación lingüística de Internet en términos de sus capacidades comunicativas: lo bueno y lo malo. Internet ofrece una plataforma en la que los usuarios pueden experimentar el multilingüismo. Aunque el inglés sigue siendo el idioma dominante utilizado en Internet, otros idiomas están aumentando gradualmente en su número de usuarios.La página de uso global de Internet proporciona información sobre el número de usuarios de Internet por idioma, nacionalidad y geografía. Este entorno multilingüe sigue aumentando en diversidad a medida que más comunidades lingüísticas se conectan a Internet. Internet es, por lo tanto, una plataforma en la que las lenguas minoritarias y en peligro de extinción pueden tratar de revivir su uso lingüístico y/o crear conciencia. Esto se puede ver en dos instancias en las que brinda a estos idiomas oportunidades de progreso en dos aspectos importantes: la documentación del idioma y la revitalización del idioma.
Documentación de idioma
En primer lugar, Internet facilita la documentación lingüística. Los archivos digitales de medios, como grabaciones de audio y video, no solo ayudan a preservar la documentación del idioma, sino que también permiten la difusión global a través de Internet. La publicidad sobre lenguas en peligro, como Webster (2003), ha ayudado a estimular el interés mundial por la documentación lingüística.
Fundaciones como Hans Rausing Endangered Languages Project (HRELP), financiada por Arcadia, también ayudan a desarrollar el interés por la documentación lingüística. El HRELP es un proyecto que busca documentar lenguas en peligro de extinción, preservar y difundir materiales de documentación, entre otros. Los materiales recopilados están disponibles en línea bajo su programa Archivo de Idiomas en Peligro de Extinción (ELAR).
Otros materiales en línea que respaldan la documentación de idiomas incluyen el Boletín de Archivo de Idiomas, que brinda noticias y artículos sobre temas en idiomas en peligro de extinción. La versión web de Ethnologue también proporciona información breve de todos los idiomas vivos conocidos del mundo. Al hacer que los recursos y la información de los idiomas en peligro y la documentación del idioma estén disponibles en Internet, permite a los investigadores construir sobre estos materiales y, por lo tanto, preservar los idiomas en peligro.
Revitalización del lenguaje
En segundo lugar, Internet facilita la revitalización de las lenguas. A lo largo de los años, el entorno digital se ha desarrollado en varias formas sofisticadas que permiten el contacto virtual. Desde correos electrónicos, chats hasta mensajería instantánea, estos entornos virtuales han ayudado a salvar la distancia espacial entre los comunicadores. El uso de correos electrónicos se ha adoptado en los cursos de idiomas para alentar a los estudiantes a comunicarse en varios estilos, como formatos tipo conferencia, y también para generar debates.Del mismo modo, el uso de correos electrónicos facilita la revitalización del idioma en el sentido de que los hablantes de una lengua minoritaria que se mudaron a un lugar donde no se habla su lengua materna pueden aprovechar Internet para comunicarse con sus familiares y amigos, manteniendo así la uso de su lengua materna. Con el desarrollo y el uso cada vez mayor de la comunicación telefónica de banda ancha como Skype, la revitalización del idioma a través de Internet ya no se limita a los usuarios alfabetizados.
Los educadores hawaianos han aprovechado Internet en sus programas de revitalización del idioma. El sistema de tablón de anuncios gráfico, Leoki (Powerful Voice), se estableció en 1994. El contenido, la interfaz y los menús del sistema están completamente en idioma hawaiano. Se instala en todo el sistema de la escuela de inmersión e incluye componentes para correo electrónico, chat, diccionario y periódico en línea, entre otros. En instituciones superiores como colegios y universidades donde el sistema Leoki aún no está instalado, los educadores utilizan otro software y herramientas de Internet como Daedalus Interchange, correos electrónicos y la Web para conectar a los estudiantes del idioma hawaiano con la comunidad en general.
Otro uso de Internet incluye que los estudiantes de idiomas minoritarios escriban sobre sus culturas nativas en sus idiomas nativos para audiencias distantes. Además, en un intento por preservar su idioma y cultura, los hablantes de occitano han aprovechado Internet para comunicarse con otros hablantes de occitano de todo el mundo. Estos métodos proporcionan razones para usar las lenguas minoritarias al comunicarse en ellas. Además, el uso de tecnologías digitales, que la generación joven considera 'cool', los atraerá y, a su vez, mantendrá su interés y uso de sus idiomas nativos.
Explotación de Internet
Internet también puede explotarse para actividades como el terrorismo, el fraude en Internet y la pedofilia. En los últimos años, ha habido un aumento en los delitos relacionados con el uso de Internet, como correos electrónicos e Internet Relay Chat (IRC), ya que es relativamente fácil permanecer en el anonimato. Estas conspiraciones conllevan preocupaciones por la seguridad y la protección. Desde un punto de vista lingüístico forense, hay muchas áreas potenciales para explorar. Si bien el desarrollo de un procedimiento de protección infantil en una sala de chat basado en el filtrado de términos de búsqueda es eficaz, todavía existe una literatura mínima orientada lingüísticamente para facilitar la tarea. En otros ámbitos, se observa que la Web Semántica se ha implicado en tareas como la protección de datos personales, lo que ayuda a prevenir el fraude.
Dimensiones
Las dimensiones cubiertas en esta sección incluyen mirar la Web como un corpus y cuestiones de identificación y normalización del lenguaje. Los impactos de la lingüística de Internet en la vida cotidiana se examinan bajo la difusión y la influencia de la estilística de Internet, las tendencias de cambio de lenguaje en Internet y el discurso de conversación.
La Web como corpus
Dado que la Web es una gran reserva de datos y recursos, los científicos y tecnólogos del lenguaje recurren cada vez más a la Web en busca de datos lingüísticos. Los corpus se mencionaron formalmente por primera vez en el campo de la lingüística computacional en la reunión de ACL de 1989 en Vancouver. Se encontró con mucha controversia ya que carecían de integridad teórica, lo que generó mucho escepticismo sobre su papel en el campo, hasta la publicación de la revista 'Using Large Corpora' en 1993 que la relación entre la lingüística computacional y los corpus se volvió ampliamente aceptada.
Para establecer si la Web es un corpus conviene acudir a la definición establecida por McEnery y Wilson (1996, pp 21).
En principio, cualquier colección de más de un texto puede denominarse corpus.... Pero el término "corpus", cuando se usa en el contexto de la lingüística moderna, tiende con mayor frecuencia a tener connotaciones más específicas que las que proporciona esta simple definición. Estos pueden considerarse bajo cuatro encabezados principales: muestreo y representatividad, tamaño finito, forma legible por máquina, una referencia estándar.— Tony McEnery y Andrew Wilson, Corpus Linguistics
Manning y Schütze (1999, pp. 120), relacionándose más de cerca con la Web como Corpus, agiliza aún más la definición:
En la PNL [Procesamiento del Lenguaje Natural] Estadístico, uno recibe comúnmente como un corpus una cierta cantidad de datos de un determinado dominio de interés, sin tener nada que decir sobre cómo se construye. En tales casos, tener más datos de entrenamiento normalmente es más útil que cualquier preocupación por el equilibrio, y uno simplemente debe usar todo el texto que esté disponible.— Christopher Manning y Hinrich Schütze, Fundamentos del procesamiento estadístico del lenguaje
Los recuentos de aciertos se utilizaron para consultas de motores de búsqueda cuidadosamente construidas para identificar órdenes de rango para frecuencias de sentido de palabra, como entrada a un motor de desambiguación de sentido de palabra. Este método se exploró aún más con la introducción del concepto de un corpus paralelo donde se reúnen las páginas web existentes que existen en paralelo en los idiomas locales y principales. Se demostró que es posible construir un corpus específico de idioma a partir de un solo documento en ese idioma específico.
Temas
Ha habido mucha discusión sobre los posibles desarrollos en el campo de la Web como corpus. El desarrollo del uso de la web como fuente de datos para la desambiguación del sentido de las palabras se presentó en el proyecto The EU MEANING en 2002. Asumió que dentro de un dominio, las palabras a menudo tienen un significado único y que los dominios son identificables en la Web. Esto se exploró aún más mediante el uso de tecnología web para recopilar anotaciones manuales de sentido de palabra en el sitio web de Word Expert.
En áreas de modelado de lenguaje, la Web se ha utilizado para abordar la escasez de datos. Se han recopilado estadísticas léxicas para resolver adjuntos de frases preposicionales, mientras que se utilizaron documentos web para buscar un equilibrio en el corpus.
En áreas de recuperación de información, se integró una pista web como un componente en la iniciativa de evaluación de TREC de la comunidad. La muestra de la Web utilizada para este ejercicio asciende a alrededor de 100 GB, comprometiendo en gran medida documentos en el dominio de nivel superior.gov.
Cuerpo Nacional Británico
El British National Corpus contiene amplia información sobre los significados dominantes y los patrones de uso de las 10.000 palabras que forman el núcleo del inglés.
El número de palabras en el British National Corpus (aprox. 100 millones) es suficiente para muchas estrategias empíricas de aprendizaje del lenguaje para lingüistas y lexicógrafos, y es satisfactorio para tecnologías que utilizan información cuantitativa sobre el comportamiento de las palabras como entrada (análisis sintáctico).
Sin embargo, para algunos otros propósitos, es insuficiente, como resultado de la naturaleza zipfiana de las frecuencias de las palabras. Debido a que la mayor parte del stock léxico aparece menos de 50 veces en el British National Corpus, es insuficiente para obtener conclusiones estadísticamente estables sobre tales palabras. Además, no se han encontrado datos para algunas palabras más raras, significados raros de palabras comunes y combinaciones de palabras. Los investigadores encuentran que los modelos probabilísticos del lenguaje basados en grandes cantidades de datos son mejores que los basados en estimaciones de conjuntos de datos más pequeños y limpios.
La Web multilingüe
La Web es claramente un corpus multilingüe. Se estima que el 71% de las páginas (453 millones de 634 millones de páginas web indexadas por el motor Excite) estaban escritas en inglés, seguidas por japonés (6,8%), alemán (5,1%), francés (1,8%), chino (1,5%), español (1,1%), italiano (0,9%) y sueco (0,7%).
Una prueba para encontrar palabras contiguas como 'respiración profunda' reveló 868.631 páginas web que contenían los términos de AlltheWeb. El número encontrado a través de los motores de búsqueda es más del triple de los recuentos generados por el British National Corpus, lo que indica el tamaño significativo del corpus en inglés disponible en la Web.
El tamaño masivo del texto disponible en la Web se puede ver en el análisis de datos controlados en los que se mezclaron corpus de diferentes idiomas en varias proporciones. El tamaño estimado de la Web en palabras por AltaVista vio al inglés en la parte superior de la lista con 76.598.718.000 palabras. El siguiente es el alemán, con 7.035.850.000 palabras junto con otros 6 idiomas con más de mil millones de visitas. Incluso los idiomas con menos visitas a la Web, como el esloveno, el croata, el malayo y el turco, tienen más de cien millones de palabras en la Web. Esto revela la fuerza potencial y la precisión del uso de la Web como Corpus dado su tamaño significativo, lo que justifica mucha investigación adicional, como el proyecto que actualmente lleva a cabo el British National Corpus para explotar su escala.
Desafíos
En áreas de modelado de lenguaje, existen limitaciones en la aplicabilidad de cualquier modelo de lenguaje ya que las estadísticas para diferentes tipos de texto serán diferentes. Cuando se pone en uso una aplicación de tecnología del lenguaje (aplicada a un nuevo tipo de texto), no es seguro que el modelo de lenguaje funcione de la misma manera que cuando se aplica al corpus de entrenamiento. Se encuentra que hay variaciones sustanciales en el rendimiento del modelo cuando cambia el corpus de entrenamiento. Esta falta de tipos de teoría limita la evaluación de la utilidad del trabajo de modelado del lenguaje.
Como los textos web se producen fácilmente (en términos de costo y tiempo) y con muchos autores diferentes trabajando en ellos, a menudo resulta en poca preocupación por la precisión. Los errores gramaticales y tipográficos se consideran formas “erróneas” que hacen que la Web sea un corpus sucio. No obstante, aún puede ser útil incluso con algo de ruido.
La cuestión de si se deben incluir sublenguajes sigue sin resolverse. Quienes lo proponen argumentan que con la eliminación de todos los sublenguajes, dará como resultado una visión empobrecida del lenguaje. Dado que el lenguaje se compone de léxicos, gramática y una amplia gama de diferentes sublenguajes, deben incluirse. Sin embargo, no es hasta hace poco tiempo que se convirtió en una opción viable. Llegar a un término medio mediante la inclusión de algunos sublenguajes es polémico porque es una cuestión arbitraria sobre cuál incluir y cuál no.
La decisión de qué incluir en un corpus recae en los desarrolladores de corpus, y se ha hecho con pragmatismo. Los deseos y criterios utilizados para el British National Corpus sirven como un buen modelo para un corpus de lenguaje general de propósito general con el enfoque de ser representativo reemplazado por ser equilibrado.
Los motores de búsqueda como Google sirven como medio predeterminado de acceso a la Web y su amplia gama de recursos lingüísticos. Sin embargo, para los lingüistas que trabajan en el campo de los corpus, presenta una serie de desafíos. Esto incluye las instancias limitadas que presentan los motores de búsqueda (1.000 o 5.000 como máximo); contexto insuficiente para cada caso (Google proporciona un fragmento de unas diez palabras); los resultados seleccionados de acuerdo con criterios distorsionados (desde un punto de vista lingüístico) como término de búsqueda en títulos y encabezados suelen ocupar los primeros lugares en los resultados; incapacidad para permitir que las búsquedas se especifiquen de acuerdo con criterios lingüísticos, como la forma de cita de una palabra o la clase de palabra; falta de fiabilidad de las estadísticas, con resultados que varían según la carga del motor de búsqueda y muchos otros factores. Actualmente, en vista de los conflictos de prioridades entre las diferentes partes interesadas, la mejor solución es que los lingüistas intenten corregir estos problemas por sí mismos. Esto conducirá entonces a la apertura de un gran número de posibilidades en el área de aprovechar el rico potencial de la Web.
Representación
A pesar del gran tamaño de la Web, es posible que aún no sea representativa de todos los idiomas y dominios del mundo, y tampoco lo son otros corpus. Sin embargo, la gran cantidad de texto, en numerosos idiomas y tipos de idiomas sobre una gran variedad de temas, lo convierte en un buen punto de partida que abre un gran número de posibilidades en el estudio de los corpus.
Impacto de su difusión e influencia
La estilística que surge del uso de Internet se ha extendido más allá de los nuevos medios a otras áreas y plataformas, incluidas, entre otras, películas, música y obras literarias. La infiltración de la estilística de Internet es importante ya que las audiencias masivas están expuestas a las obras, lo que refuerza ciertos estilos de lenguaje específicos de Internet que pueden no ser aceptables en formas de lenguaje estándar o más formales.
Además de la jerga de Internet, los errores gramaticales y tipográficos son características de la escritura en Internet y otros canales de CMC. A medida que los usuarios de Internet se acostumbran a estos errores, se infiltran progresivamente en el uso cotidiano del lenguaje, tanto en forma escrita como hablada. También es común presenciar tales errores en trabajos de medios de comunicación, desde errores tipográficos en artículos de noticias hasta errores gramaticales en anuncios e incluso jerga de Internet en diálogos dramáticos.
Cuanto más se incorpora Internet a la vida cotidiana, mayor es el impacto que tiene en el lenguaje formal. Esto es especialmente cierto en las clases modernas de artes del lenguaje mediante el uso de teléfonos inteligentes, tabletas y redes sociales. Los estudiantes están más expuestos que nunca al lenguaje de Internet y, como tal, la estructura gramatical y la jerga de Internet se filtran en su escritura formal. La inmersión total en un idioma es siempre la mejor manera de aprenderlo. Mark Lester en su libro Teaching Grammar and Usage afirma: “El mayor problema que tienen los escritores básicos para desarrollar estrategias exitosas para hacer frente a los errores es simplemente su falta de exposición al inglés escrito formal... Pensaríamos que es absurdo esperar que un estudiante dominar un idioma extranjero sin una exposición extensa a él”.Dado que los estudiantes están inmersos en el lenguaje de Internet, esa es la forma y estructura que están reflejando.
Además, el auge de Internet y la inmersión general de las personas dentro de él ha generado una nueva ola de activismo en Internet que tiene un impacto en el público todos los días.
Memes
El origen del término 'meme' se remonta a Richard Dawkins, un etólogo, donde lo describe como "un sustantivo que transmite la idea de una unidad de transmisión cultural o una unidad de imitación". Posteriormente, el término fue adaptado al ámbito de Internet por David Beskow, Sumeet Kumar y Kathleen Carley, en el que etiquetaron a los memes de Internet como "cualquier unidad digital que transfiere cultura".
Medios de comunicación en masa
Ha habido casos de anuncios de televisión que utilizan jerga de Internet, lo que refuerza la penetración de la estilística de Internet en el uso cotidiano del lenguaje. Por ejemplo, en el comercial de Cingular en los Estados Unidos, se usaron siglas como "BFF Jill" (que significa "Best Friend Forever, Jill"). Más empresas han adoptado el uso de la jerga de Internet en sus anuncios a medida que más personas crecen usando Internet y otras plataformas de CMC, en un intento de relacionarse y conectarse mejor con ellos. Dichos comerciales han recibido comentarios relativamente entusiastas de sus audiencias.
El uso de la jerga de Internet también se ha extendido al campo de la música, visto significativamente en la música popular. Un ejemplo reciente es la letra de Trey Songz para "LOL:-)", que incorporó mucha jerga de Internet y menciones de Twitter y mensajes de texto.
La difusión de la lingüística de Internet también está presente en las películas realizadas por cineastas tanto comerciales como independientes. Aunque se proyectan principalmente en festivales de cine, los DVD de películas independientes a menudo están disponibles para su compra a través de Internet, incluidas las transmisiones en vivo pagas, lo que hace que el acceso a las películas sea más fácil para el público. La propia naturaleza de las películas comerciales que se proyectan en los cines públicos permite una amplia exposición a la audiencia masiva principal, lo que da como resultado una difusión más rápida y amplia de la jerga de Internet. La última película comercial se titula "LOL" (acrónimo de Laugh Out Loud o Laughing Out Loud), protagonizada por Miley Cyrus y Demi Moore. Esta película es una nueva versión de 2011 de la popular película francesa de 2008 de Lisa Azuelos titulada de manera similar "
El uso de jergas de Internet no se limita al idioma inglés, sino que también se extiende a otros idiomas. El idioma coreano ha incorporado el alfabeto inglés en la formación de su jerga, mientras que otros se formaron a partir de errores ortográficos comunes derivados de la escritura rápida. La nueva jerga coreana se refuerza aún más y se incorpora al lenguaje cotidiano en programas de televisión como telenovelas o comedias dramáticas como "High Kick Through the Roof", estrenada en 2009.
Futuro lingüístico de Internet
Con el surgimiento de mayores sistemas de comunicación mediados por computadora/Internet, junto con la disposición con la que las personas se adaptan para cumplir con las nuevas demandas de un mundo tecnológicamente más sofisticado, se espera que los usuarios continúen bajo presión para modificar su uso del idioma para adaptarse Las nuevas dimensiones de la comunicación.
A medida que la cantidad de usuarios de Internet aumenta rápidamente en todo el mundo, los antecedentes culturales, los hábitos lingüísticos y las diferencias de idioma entre los usuarios se incorporan a la Web a un ritmo mucho más rápido. Se prevé que estas diferencias individuales entre los usuarios de Internet tengan un impacto significativo en el futuro de la lingüística de Internet, especialmente en el aspecto de la web multilingüe. Como se vio entre 2000 y 2010, la penetración de Internet ha experimentado su mayor crecimiento en países de habla no inglesa como China e India y países de África, lo que ha dado lugar a que más idiomas, además del inglés, penetren en la Web.
Además, se prevé que la interacción entre el inglés y otros idiomas sea un área importante de estudio. A medida que los usuarios globales interactúan entre sí, las posibles referencias a diferentes idiomas pueden seguir aumentando, lo que da como resultado la formación de nuevos estilos de Internet que se extienden a través de los idiomas. Los idiomas chino y coreano ya han experimentado la infiltración del idioma inglés que condujo a la formación de su jerga de Internet multilingüe.
En el estado actual, Internet ofrece una forma de educación y promoción de las lenguas minoritarias. Sin embargo, de manera similar a cómo la interacción entre idiomas ha resultado en la infiltración del idioma inglés en los idiomas chino y coreano para formar nuevas jergas, los idiomas minoritarios también se ven afectados por los idiomas más comunes que se usan en Internet (como el inglés y el español). Si bien la interacción entre idiomas puede causar una pérdida en el estándar auténtico de los idiomas minoritarios, la familiaridad con el idioma mayoritario también puede afectar a los idiomas minoritarios de manera adversa. Por ejemplo, los usuarios que intentan aprender el idioma minoritario pueden optar por leer y comprender sobre él en un idioma mayoritario y detenerse allí, lo que resulta en una pérdida en lugar de una ganancia para los hablantes potenciales del idioma minoritario.Además, se puede alentar a los hablantes de idiomas minoritarios a aprender los idiomas más comunes que se usan en la Web para obtener acceso a más recursos y, a su vez, provocar una disminución en el uso de su propio idioma. Queda por observar el futuro de las lenguas minoritarias en peligro de extinción debido a la expansión de Internet.
Contenido relacionado
Sandhi tonal
Lenguas nominativas-absolutivas
Avéstico