Sociedad de la Información y el Conocimiento


Claudio Segovia
Investigador, docente y consultor en accesibilidad
e internacionalización en Internet.
claudiosegovia@sidar.org
http://www.inclusiondigital.net/albergue

15 de Julio de 2007
Diversidad de lenguas e Internet: Hacia una verdadera red mundial y participativa

Hay otro tema del que poco se habla en la prensa y que está influyendo en las vidas de la creciente masa de usuarios de Internet: la internacionalización, la explosión de lenguas en Internet.


Seguridad informática, Web 2.0, privacidad, teletrabajo y comercio electrónico. Esos son los temas que más surgen en la prensa cuando se habla de Internet. Poco a poco, como antes el teléfono o la televisión, Internet se ha ido metiendo en nuestras vidas, aparentemente para quedarse, haciendo que cada vez más actos cotidianos tengan que ver con la Red de Redes.

Pero hay otro tema del que poco se habla en la prensa y que está influyendo casi tanto como los anteriores en las vidas de la creciente masa de usuarios de Internet: la internacionalización, la explosión de lenguas en Internet.

Dicen que en el principio fue el Verbo. Y el Verbo, en Internet, estaba escrito en inglés. Los primeros servidores y servicios de la red mundial comenzaron a funcionar en Estados Unidos y los que estamos conectados desde el siglo pasado seguramente recordaremos que si queríamos hacer algo tan simple como abrir una cuenta de correo electrónico (por ejemplo en Netscape o en el viejo Hotmail, antes que fuera adquirido por Microsoft) debíamos entender el inglés, porque no había versiones disponibles en otros idiomas.

El tiempo pasó, los usuarios de habla distinta al inglés fueron cada vez más... e Internet, fiel a su naturaleza, comenzó a adaptarse a los cambios.

Escenas de la vida cotidiana

Tony es un refugiado que vive en Argentina, escapando de una guerra civil en su país. Para ganarse la vida, una amiga le recomienda un sitio en Internet desde el que poder hacer teletrabajo. Va a un cibercafé e intenta ingresar al sitio, pero está en un idioma que no es el suyo y que tampoco comprende, por lo que luego de varios intentos fallidos, desiste.

Nahuel está orgulloso de sus ancestros mapuches, por lo que, cuando le proponen en el colegio hacer un sitio en Internet, no duda un segundo en hacerlo en mapudungun, la lengua de sus abuelos. Una vez hecho el sitio y puesto en línea en Internet, descubre con desagrado que no aparece entre los sitios de esa lengua cuando usa algún buscador conocido: ¡Aparece dentro de los sitios en inglés!

Carlos es ciego y navega Internet con un conocido lector de pantalla. Desde hace un tiempo que nota que el programa funciona bien mientras se navegue en el idioma en el que está configurado, pero si la página está en un idioma distinto, u ofrece palabras o frases del mismo tenor, lo pronuncia de una forma extraña. Asi, la Casa Blanca estadounidense es algo asi como "de güite ouse" y cuando un francés declara su amor, escucha algo como "je t aime". Un amigo que conoce del tema le ha dicho que esto se puede solucionar si los textos en idiomas distintos se declararan en forma correcta en el código.

El porqué de la internacionalización


Existe una opinión, muy extendida en ciertos ámbitos, que sugiere la inutilidad de apoyar la difusión de lenguas distintas al inglés. Se dice, basándose en hechos actuales, que el inglés es la lengua franca del mundo actual, como antes lo fueron el latín o el francés. Que es la lengua de intercambio en ámbitos internacionales como la diplomacia o el comercio exterior y que cualquiera que desee crecer, laboralmente hablando, debe estudiar inglés, sea del país que sea.

Es una opinión interesante, pero ya en las mismas razones por las que se la defiende se encuentran problemas. Se citan como ejemplos pasados al francés y al latín. Pero justamente fueron lenguas fuertes en el pasado. ¿El inglés se impondrá por siempre o en el futuro hablaremos chino mandarín o hindi como lenguas de intercambio? Nadie puede asegurarlo.

Una alternativa a esta posición es la que dice que debe darse difusión sólo a las lenguas "importantes", y se incluyen en esta categoría, acompañando al inglés, a un pequeño grupo que varía de acuerdo al que lo dice: francés, español, alemán, japonés, portugués y, ultimamente, el chino mandarín (1).

Pero esto es sólo si damos por sentado que unas lenguas son más importantes que otras.

¿Esto es así?

¿Qué determina esa supuesta importancia?:

¿La proporción de hablantes en una región?
En Paraguay el 94 % de la población habla guaraní (2). En Bolivia, una importante porción de la población habla quechua (24 %) o aymará (14 %).

¿ El que sean lenguas oficiales en una o más naciones?
Nuevamente en Paraguay, el guaraní es lengua oficial desde 1995, pero no se lo reconoce como importante ni siquiera en el Mercosur, del que Paraguay forma parte desde su fundación. En Bolivia, desde 2006, las lenguas oficiales son el español, el quechua, el aymará y el guaraní.

Aparentemente las únicas razones de peso para dar más importancia a unas lenguas sobre otras son la economía y la política.

El derecho a la propia lengua

A partir de este punto, queda más claro entonces que todas las lenguas, sin importar su relativa importancia, tienen derecho a ser difundidas y apoyadas. Conviene recordar que "mucha de la vida cultural, espiritual e intelectual de la gente se vive a través del idioma. Esto va desde rezos, mitos, ceremonias, poesía, oratoria y vocabulario técnico, hasta las formas de saludo diario, estilos conversacionales, humor, formas de hablar a los niños y términos únicos para hábitos, comportamientos y emociones. Cuando un idioma se pierde, todo esto se tiene que reacomodar en el nuevo idioma (con categorías diferentes de palabras, sonidos y estructuras gramaticales) si es que se conserva." (3)

Cada lengua es un reflejo de una cultura, una forma de ver el mundo, y cada vez que una lengua se pierde, un trozo de esa gran familia que es la raza humana se pierde para siempre.

Un tema, muchos problemas

Una vez que comprendimos la importancia del tema, veremos que la tarea es enorme y variada.

Los caminos para lograrlo son varios y complementarios, la mayoría de ellos muy técnicos para el común de los lectores, pero veremos dos claves para esto: la codificación de las lenguas y la estandarización de caracteres.

Codificación de lenguas

Para poder identificar las lenguas, debemos darle un código único a cada una.

Luego de varios intentos previos, en 1988 la Organización Internacional de Estándares (ISO, sigla de International Standard Organization) creó la norma internacional ISO 639-1 que identificaba a las lenguas más comunes con un código de dos letras (5). Pronto resultó claro que faltaba identificar muchas lenguas y que el sistema de dos letras no alcanzaba para todas (ISO 639-1 identificaba sólo 136 idiomas), por lo que, en el año 1991 se lanzó la norma ISO 639-2 (4) que le da un código de tres letras a unos 400 idiomas. (6)

Pero... la ISO 639-2 seguía sin incluír a todas las lenguas, solo agrandaba el espectro de las clasificadas y nada más (7). En el caso de muchas lenguas de Latinoamérica, la norma las agrupa por regiones. Así, la mayoría de las lenguas de Sudamérica se las agrupa bajo el código genérico de sai y, en caso de Centroamérica, cai. Para intentar solucionar este problema, en el año 2005 se dio a conocer el borrador de la norma ISO 639-3 que le da un código individual de tres letras a cada una de las lenguas (8).

Ante este conjunto de normas, si escribimos información en una página, deberemos buscar en la norma ISO 639-1 el código de dos letras que le corresponda al idioma en que está escrita dicha información. Si dicha norma no define un código para ese idioma, deberemos buscarlo en ISO 639-2 y, si en dicha norma se define un código genérico en vez de uno específico, buscaremos en la ISO 639-3 el código que se define para esa lengua. (9)

Estandarización de caracteres

El lenguaje inicial de construcciones de páginas web, HTML, comenzó estando orientado al inglés y a todas las lenguas que usan caracteres de este idioma (a través del conjunto de caracteres ISO-8859-1), por lo que caracteres conocidos por nosotros como las vocales acentuadas, consonantes como ñ o ç o signos como de comienzo de oración de admiración o interrogación (¡ y ¿ respectivamente) quedaban fuera de las páginas web. Recién en la versión 2.0 de esta norma se permitió la opción de que una página pueda ofrecer un conjunto de caracteres distinto.

¿Cómo incluíamos caracteres especiales en nuestras páginas entonces? Con los llamados "caracteres de escape" (por ejemplo á para á), un parche que nos permitía solucionar el problema, pero que nos genera otros, como dificultades a la hora de buscar, indexar o al querer usar iniciativas más innovadoras, como la Web Semántica.

Además, seguía siendo imposible incluír todos los caracteres existentes en un solo conjunto. Esto recién se logra con el conjunto de caracteres Unicode (10) y su implementación tuvo que esperar hasta la versión 4.0 del lenguaje HTML.

Unicode nos permite crear páginas web en cualquier lengua que use cualquier tipo de caracteres, aunque los problemas aún persisten ya que a veces los navegadores no muestran bien algunos caracteres Unicode (11), pero esto se debe más a razones de compatibilidad del propio navegador que del estándar.

Así, conviene aclarar que si vamos a hacer un sitio que contenga sólo caracteres occidentales, con declarar que vamos a usar el conjunto de caracteres ISO-8859-1, será suficiente (12). Ahora, si vamos a usar otro tipo de caracteres (armenios, árabes, cirílicos, chinos, hebreos, japoneses, etc.), conviene declarar el conjunto de caracteres Unicode o UTF-8 (13).

Y más...
Direcciones web multilingüales: ¿resulta molesto escribir la dirección www.nandu.com del sitio Ñandú.com? Imagínense lo que le pasa a un japonés, un árabe o un chino.
Dirección del texto: No todo el mundo escribe de izquierda a derecha.
Negociación de contenidos para servidores y lenguajes: ¿Notaron que si uno escribe en el navegador www.google.com, nos lleva directamente a la versión Google en nuestro propio idioma? Es una de las bondades de la negociación de contenidos.
Formatos de fechas: No todo el mundo muestra las fechas de la misma forma.
Pero ante todo siempre debemos recordar el porqué de toda esta tarea: el colaborar con nuestro granito de arena para lograr una verdadera red mundial y participativa, en donde todas las lenguas, aún las más "minoritarias", tengan su lugar para difundirse y mantenerse vivas.


Claudio Segovia
Investigador, docente y consultor en accesibilidad e internacionalización en Internet.
claudiosegovia@sidar.org
http://www.inclusiondigital.net/albergue


--------------------------------------------------------------------------------

(1) La lengua más hablada en el mundo actualmente con 885 millones de hablantes, el 13,69 % de la población mundial. Fuente: http://es.wikipedia.org/wiki/Anexo:Lista_de_lenguas_por_número_de_hablantes .

(2) Fuente: http://en.wikipedia.org/wiki/Guaraní_language .

(3) "Endangered languages", Woodbury, Anthony, Geoffrey Numberg y Thomas Wason, citado y traducido en el sitio del Archivo de los Idiomas Indígenas de Latinoamérica de la Universidad de Texas (AILLA) en en la dirección http://www.ailla.utexas.org/site/welcome_sp.html .

(4) Podemos encontrar el listado completo en las páginas http://lcweb.loc.gov/standards/iso639-2/langcodes.html y http://www.oasis-open.org/cover/iso639a.html.

(5) Asi, para el inglés, se debe usar en, para español, es, para portugués, pt y para francés, fr,ay para el aymará, gn para el guaraní y qu para el quechua.

(6) Ante la posibilidad que un mismo lenguaje tenga un código de dos letras y otro de tres letras, como sucede en varios casos, la norma RFC 3066, complementando la anteriormente citada, recomienda usar el código de dos letras. Podemos encontrar el listado completo de esta norma en la página http://www.ietf.org/rfc/rcf3066.txt.

(7) Define nuevos códigos como arn para el mapudungun, roa para el caló o gitano y car para el caribe.

(8) Para llevar a cabo la tarea, La ISO toma de referencia el sistema de codificación de una organización llamada SIL (sigla en inglés de Summer Institute Linguistics y cuyo sitio en Internet es http://www.sil.org), que intenta catalogar todas las lenguas del mundo. A través de su sitio en Internet llamado Ethnologue (en http://www.ethnologue.com), ofrece información en línea sobre más de 6.900 lenguas catalogadas. Los datos brindados por Ethnologue son usados por organismos internacionales como las Naciones Unidas y UNESCO, además de la ISO.

(9) Como esta norma aún no se ha convertido en un estándar, y aprovechando una opción que la norma RFC 3066 ofrece para lenguas no estandarizadas, en HTML y XHTML se deberá escribir de la siguiente forma:

<html lang="x-sil-xxx">

Y en XML deberá usarse:

xml:lang="x-sil-xxx"

Donde xxx es el código de tres letras brindado por ISO 639-3. Así, si queremos definir un texto escrito en Aoniken o Tehuelche, los respectivos códigos serían:

<html lang="x-sil-teh">

Y...

xml:lang="x-sil-teh"

(10) Una amplia explicación del tema se puede hallar en la página http://unicode.org/standard/translations/spanish.html.

(11) Si tenemos nuestro navegador configurado con Unicode, a continuación podremos ver algunos ejemplos de textos en otros idiomas:

(12) Con la línea <meta http-equiv="Content-type" content="text/html; charset=ISO-8859-1" /> en el código.

(13) Con la línea <meta http-equiv="Content-type" content="text/html; charset=utf-8" />.

más notas

imprimir nota

Información: info@caminandoutopias.org.ar


mail2web.com - Lea su correo electrónico

Lea todos sus correos POP3 desde cualquier equipo, en cualquier lugar del mundo.
¡Sin necesidad de registrarse!

Creative Commons License This work is licensed under a Creative Commons License.