Resumen y reflexión del Tema 4
LENGUA Y VARIACIÓN GEOGRÁFICA, SOCIAL Y DE REGISTROS
+ CHARLA DE CLAUDIA COLOMÉS
RESUMEN:
Como vimos anteriormente, poseemos 2 tipos de lengua:
- La lengua interna, que es el complejo sistema de representaciones mentales que hace un individuo
- La lengua externa, que es el tesoro colectivo y el conjunto de variedades que se han creado utilizando la representación física de la lengua interna.
El español es una lengua, esta por lo tanto es un conjunto de:
- Variedades diatópicas (por razones geográficas, llamados geolectos)
- Variedades diastráticas (por el origen social e identitario de los hablantes, llamados sociolectos)
- Variedades diafásicas (por la situación comunicativa, llamados estilos o registros)
Cuando hablamos del español, podemos decir que los territorios que lo hablan se llaman hispanidad o territorios hispanohablantes
Dentro de una lengua, hay más diferenciaciones. Las diferencias desde un punto técnico entre lengua y dialecto son:
- La lengua es una entidad abstracta con un conjunto de variaciones (de dialectos)
- Un dialecto es una realización concreta de una lengua que está circunscrita a un espacio geográfico, social y situacional específico. Si existe la variedad estándar se considera un dialecto. Además, el uso peyorativo de un dialecto no tiene valor lingüístico.
Mientras que desde un punto de vista extralingüístico una variedad lingüística solo puede ser considerada lengua si:
- Es la lengua oficial de un estado
- Tiene un registro escrito
- Tiene una variedad culta
- Tiene reconocimiento jurídico
- Tiene literatura
- Tiene prestigio
Aun así, existen los idiolectos, que cuentan con características específicas:
- Son un dialecto personal
- La identidad geográfica, social y contextual del individuo tiene un reflejo lingüístico
- Forma parte de la lengua E
- No es la lengua I, ya que es la realización del sistema de la lengua I con el objetivo de demostrar quién se es y a qué grupo se pertenece
- Es consciente y controlable, ya que forma parte de nuestras decisiones voluntarias
Variedades de la lengua:
Variedades diastráticas o sociolectales:
Son poco controlables y dependen de varios factores, entre ellos:
- Edad / grupo generacional
- Sexo
- Raza / etnia
- Clave social
- Nivel de instrucción
- Profesión (lenguas de especialidad)
Las variedades diafásicas o de registro:
Son los extremos de un continuum
- Formal
- Informal / Coloquial / Familiar
La selección de rasgos lingüísticos depende de la situación y los participantes.
Características del estilo coloquial entre otras:
- Tú frente a usted
- Uso de muchas oraciones subordinadas
- No usar dichos
No hay que confundir dialecto con registro, y ,por ello, no debe confundirse la noción sociolectal de vulgar con la diafásica de coloquial
La variedades diatópicas o de lugar dependen de muchos factores, pero estos varían según el lugar de origen.
Con estas distinciones podemos entender las clasificaciones principales que tiene la sociedad para la lengua:
Lengua culta: está relacionada con la instrucción superior, normalmente es urbana, es usada por los medios de formación de masas (como la comunicación o las aulas). A partir de ella se genera la lengua estándar.
Lengua popular: está relacionada con los estratos socioculturales medios y bajos, posee muchos rasgos dialectales que afectan a todos los niveles.
Lengua vulgar: se considera incorrecta, ya que rompe la norma social, es la más innovadora.
- Desde el punto de vista lingüístico estricto todas las variedades son iguales, los juicios que hacemos sobre estas es un reflejo de las valoraciones que hacemos de sus hablantes porque se asocian con grupos sociales mas o menos prestigiosos (a esto se le denomina actitudes lingüísticas).
La variedad estándar (el panhispánico):
- Puede ser a) una de las variedades geográficas sociolectales de esa lengua o b) un supradialecto (koiné) distinto de ellas (policéntrica)
- Definición de dialecto estándar:
- - Es la lengua de intercambio, legitimizada e institucionalizada, tiene carácter suprarregional, por encima de las lenguas coloquiales y los dialectos, es normalizada y transmitida de acuerdo con las normas del uso oral y escrito
- - El estándar escrito del español sigue coincidiendo con a)
Norma normal vs norma normativa
Los maestros son transmisores de la variedad estándar
Como transmisores de la lengua deben explicar que esta debe ser:
- Constante
- Coherente
- Flexible
Respecto al modelo lingüístico, deben de adecuar su variedad lingüística a lo que van a enseñar como transmisor de la lengua.
La norma culta del español oral es policéntrica (panhispánica), cada zona tiene su estándar hablado. (En México la variedad culta es la de las clases instruidas de México, mientras que en Argentina es la de las clases instruidas de Argentina). Todas son igualmente válidas por lo que hay que evitar discriminar por acentos.
El español escrito tiene una única norma, la variedad centropeninsular o septentrional.
España es un territorio multilingüe por sus lenguas autóctonas y un territorio multilingüe por sus lenguas alóctonas.
Las lenguas autóctonas son las lenguas que se hablan en España con reconocimiento oficial. No son dialectos del español, ya que provienen directamente del latín (a menos que no sean romances, en ese caso tienen otro origen). Estas son:
- Castellano o español
- Catalán (variedades central, balear y valenciana [esta se denomina Valenciano])
- Vasco o Euskera (no romance y sin origen concreto)
- Gallego
- Aranés (en el valle de Arán)
Hay otras lenguas romances que se hablan sin reconocimiento oficial:
- Asturiano o astur-leonés
- Aragonés (solo en la zona pirenaica)
- Portugués (en zonas limítrofes con Portugal de Castilla)
- Rifeño (dialecto del árabe marroquí, se habla en Ceuta y Melilla) [autóctona pero no es romance]
Las lenguas alóctonas son las lenguas que se hablan en España pero que no provienen de España. Como ejemplo, entre ellas se encuentran:
- Rumano
- Árabe
- Chino
- Inglés
- Alemán
Los dialectos del español son las variedades geolectales del español. Estos están delimitados por una frontera lingüística (representado por una línea verde imaginaria cuando se representa en el mapa, llamada isoglosa, una frontera lingüística que separa varios territorios). Estos son:
El español centropeninsular, septentrional o norteño en la parte del centro al norte de la península. Su principal característica es la distinción entre /s/ y /θ/
El español meridional, del centro hacia el sur de la península no se hace la distinción y se usa solo el sonido /s/ (seseo), excepto en un pequeño núcleo andaluz que solo pronuncia la /θ/ (ceceo). Está compuesto por las variedades:
- Extremeña
- Manchega
- Murciana
- Canaria
Toda Latinoamérica tiene un español meridional, por lo que no se distinguen los sonidos /s/ y /θ/. En esta existen distintas variedades:
- Mexicano o centroamericano
- Español caribeño o de las Antillas (Cuba, Puerto Rico, RRDD)
- Español del Río de la Plata (Argentina, Uruguay y Paraguay)
- Español andino (Perú, Bolivia, zonas de Colombia y zonas de Paraguay)
- Español de Chile o chileno
Lenguas en contacto:
Cuando coinciden 2 o más lenguas en una comunidad, normalmente no lo hacen en pie de igualdad, sino por diferencia de estatus, de prestigio, de usos…
- En un individuo se pueden manifestar en situaciones de bilingüismo o multilingüismo (por ejemplo, en Galicia las personas suelen hablan español y gallego) [fenómeno individual que se puede pensar simétrico, al usar una u otra de manera indistinta]
- Desde el punto de vista social, son siempre asimétricos, es decir, las lenguas en contacto no se usan en todas las situaciones de la misma manera. Esto se denomina diglosia (los usos se distribuyen, una lengua se usa solo en la escuela o en los medios de comunicación [situaciones más formales], mientras que a otra se habla en la familia o con los amigos [situaciones más informales]). [Sucede por ejemplo con el rifeño en Ceuta y Melilla, la escolarización es en castellano, pero ellos hablan rifeño en casa]. Sucedía con el catalán, euskera o gallego durante la época de dictadura. Para reducir estas situaciones debemos fomentar que las lenguas se usen de manera indistintamente en el día a día haciéndolas lenguas oficiales y mediante escolarización en lenguas autóctonas, ya que si no se convierte en discriminación.
CHARLA DE CLAUDIA COLOMÉS SANCHEZ (12-11-2024)
Ella es filóloga, traductora, lingüista computacional, fonetista, licenciada en filología hispánica en la Universidad Complutense, tiene un máster con especialidad en tecnologías del habla y si tuviera que resumir su carrera laboral diría que lleva década y media enseñando a las maquinas a entendernos. Aun así, defiende que las máquinas no pueden remplazarnos en determinados sectores, la acción que ejerce el ser humano es mejor, ya que las máquinas siempre deben estar supervisados por humanos para obtener su perfección.
Algunos consejos para empezar en la industria según Claudia son hablar entre nosotros sobre las empresas en las que hayamos trabajado, las condiciones aborales, compañeros…, preguntar por el día a día en las entrevistas, conocer nuestros derechos laborales, leer bien los contratos y convenios, formarse bien, o usar LinkedIn (y crear redes).
Ser lingüista computacional consiste en transformar el lenguaje natural en una representación formal para que una maquina pueda comprenderlo y formularlo. Es un campo multidisciplinar con parte lingüista, estadística, de matemáticas o de programación entre otras. Abarca la teoría de la comunicación y del lenguaje con las maquinas desde una perspectiva general o el procesamiento del lenguaje. En esto influye el PLN (procesamiento del lenguaje natural), el cual estudia las interacciones entre los ordenadores y las personas a través del lenguaje natural. Aunque sean distintos tienen muchos puntos en común y se suelen usar ambos términos indistintamente.
Las tareas de los lingüistas computacionales consisten en diseño y anotación de corpus, anotación y limpieza de datos de entrenamiento, escribir códigos, investigación, diseño de interfaces conversacionales, evaluación y solución de errores o gestión de equipos entre otras.
La formación que se debería tener se basa en conocimientos de lingüística, técnicos (aprender Python y Prompting [Bash y Shell, github]). Conocimientos del PLN como libros (speech and language processing de Dan Jurafsky), y saber usar herramientas de trabajo (Chatbox como amazon lox).
En el sector hay mucho trabajo, este y las tareas evolucionan constantemente, por lo que los lingüistas suelen cambiar bastante de empresa (mucho intento de explotación), hay que hacerse valer y demostrar nuestra utilidad, muchos empleos son en consultoría.
Evolución del PLN:
- Surgió en el siglo XVIII, en la época de los autómatas, con varios intentos de imitar la voz y funciones humanas (maquina habladora de Kempelen o "el escritor"). A partir del siglo XX comienzan a funcionar las maquinas que realmente emulan el idioma humano en los años 40 con la creación del primer ordenador en 1945 (debido a la 2ª guerra mundial), se usan sistemas if/else para crear los de traducción).
- El primer programa se da en 1970, es ELIZA, el primer chatbot psicoanalista al que se le preguntaba y te devolvía algunos pronombres o añadía palabras. El segundo se llamó Barry y en 1972 lo pusieron a hablar con ELIZA.
- En los años 90 hay unos ordenadores mucho más potentes con más capacidad de almacenamiento y se opta por modelos estadísticos y probabilísticos, con los que se dan una serie de pesos a cada palabra y calculaban la probabilidad de que se diera una palabra u otra detrás de otra. Gracias a estos ordenadores más potentes surge la época del Big Data.
- En 2010 los ordenadores son cada vez más potentes y ya no es necesario anotar tanto los datos con el Deep Learning (se imita el comportamiento humano lo máximo posible) y las redes neuronales y comienza la época de la inteligencia artificial (toda máquina que imita el comportamiento humano). Hay una aproximación mucho más general y las maquinas aprenden solas. Se usa también el machine learning (algoritmo entenado con datos estructurados para conseguir especializar una IA)
- En 2017, aparecen los transformers, un sistema del deep learning que tiene en cuenta el contexto. Cada palabra dentro de una frase se tiene en cuenta para calcular las probabilidades de aparecer de una palabra. Algunos son GPT o VERT (modelos de base para ChatGPT y Gemini). Se pasa a tener una cantidad de datos anotada, el resto de datos los anota la maquina sola. Gracias a ello cada vez es más fácil simular lenguaje natural
- En 2020 se da el boom de la IA generativa, que no es lo mismo que inteligencia artificial, es una parte muy pequeña dentro del deep learning.
Aplicaciones del PLN:
- Las más comunes son las de síntesis de voz, o reconocimiento de voz (ASR), (Eleven labs es un programa para recrear tu voz). Sin embargo, hay limitaciones capacitistas o de acentos.
- También hay aplicaciones de traducción automática, de análisis de sentimientos, extracción de información, o clasificación de texto (como jupyter, aunque tiene como desventajas que no detectan el sarcasmo y suelen ser muy normativos o con sesgos).
- Otras se centran en sistemas de diálogo (suelen ser las que más se desarrollan), de tipo chatbox (solo por escrito) o voicebox, que aplica síntesis y reconocimiento de voz además de comprensión del lenguaje natural (se evoluciona desde ELIZA a Clippy y luego basándose en el servicio al cliente como asistentes de tiendas como IKEA, luego con las redes neuronales asistentes como Siri y más tarde los LLM [Large Lenguage Models] como ChatGPT)
- A día de hoy para desarrollar debemos tener en cuenta cual usar, el machine learning se usa para cosas muy sencillas como juguetes o atención al cliente, los LLM son los más desarrollados en lenguaje y respuesta, por lo tanto, más naturales, y son para cosas más abiertas; luego están las inteligencias artificiales (como GPT o Llama) y las híbridas.
- Los sistemas de machine learning se desarrollan con diseños de conversación con intenciones del usuario y valores que debe aportar el usuario (llamados slots), se usan para conversaciones más dirigidas. Las preguntas y acciones que puede hacer el usuario están muy limitadas. Hay frases prototípicas y sinónimos con las que se entrena al sistema, palabras opcionales y frases que puede usar el usuario
- Los LLM comprenden prácticamente cualquier pregunta y proporcionan respuestas naturales para ellas. Tienen limitaciones: no da datos personales, falta de entrenamiento en dominios específicos, falta de datos según el idioma, no entiende los contextos en distintos campos, no hay resultados actuales, no cita fuentes, tienen sesgos.
- Hay técnicas para compensar las limitaciones (como el fine-tuning o el RAG (Retrieval-Augmented Generation)
- Los factores para ver que tecnología usar dependen del dominio, número de idiomas, precio, coste energético, necesidad de actualización de datos, o experiencia de usuario
REFLEXIÓN:
En el instituto aprendemos acerca de lo que son las variedades del lenguaje de una manera general, pero no con la profundidad suficiente para poder entender las verdaderas diferencias que hay entre ellas tanto a nivel social como cultural. Al igual que solo aprendemos los dialectos más importantes y/o cercanos y no se suelen mencionar las características únicas que tienen cada uno de ellos.
Es muy importante enseñar a las personas que nadie debe ser juzgado por su forma de hablar, ya que todos hablamos de nuestra propia manera. Que tengamos un acento u otro no tiene que tener una relación directa con nuestras características como personas, y por ello, tampoco debemos de intentar corregir nuestros acentos intentando que suenen "mejor" o más "neutros", ya que esto es solo una ilusión creada por la sociedad. Al igual que debe suceder con las lenguas que son habladas por un mismo individuo, debemos fomentar el multilingüismo y evitar la diglosia.
Como profesores debemos incitar al buen uso del habla, sin discriminación y con atención a los lugares de procedencia de los alumnos, además de permitir que la escritura sea correcta y no interferida por algunas confusiones que puedan causar nuestros acentos.
Permitir que desde pequeños los alumnos puedan entender que sus formas de hablar no deben ser motivos de vergüenza ni de burla y que alrededor del mundo existen diferentes lenguas de muy variadas características es una forma de enriquecer su cultura y su ansia por entender el funcionamiento de la vida.
Con respecto a la charla de Claudia Colomés, me gustaría resaltar que anteriormente no conocía la profesión de lingüista computacional, y es bueno ver que hay salidas más innovadoras para una carrera de humanidades aparte de las típicas como son profesor de historia o administrador de archivos.
Me ha resultado muy interesante ver como las nuevas tecnologías como son las inteligencias artificiales necesitan la instrucción del propio funcionamiento del lenguaje para poder entendernos. Además de que llevamos muchas décadas intentando imitar el habla y el pensamiento humano de varias formas.