|

Claudio Segovia
Investigador, docente y consultor en accesibilidad
e internacionalización
en Internet.
claudiosegovia@sidar.org
http://www.inclusiondigital.net/albergue
|
| 15
de Julio de 2007
Diversidad
de lenguas e Internet: Hacia una verdadera
red mundial y participativa
|
Hay
otro tema del que poco se habla en
la prensa y que está influyendo
en las
vidas de la creciente masa de usuarios
de Internet: la internacionalización,
la explosión de lenguas en Internet.
|
Seguridad informática, Web 2.0, privacidad,
teletrabajo y comercio electrónico.
Esos son los temas que más surgen en
la prensa cuando se habla de Internet. Poco
a poco, como antes el teléfono o la
televisión, Internet se ha ido metiendo
en nuestras vidas, aparentemente para quedarse,
haciendo que cada vez más actos cotidianos
tengan que ver con la Red de Redes.
Pero
hay otro tema del que poco se habla en la
prensa y que está influyendo casi
tanto como los anteriores en las vidas de la
creciente masa de usuarios de Internet: la
internacionalización, la explosión
de lenguas en Internet.
Dicen
que en el principio fue el Verbo. Y el Verbo,
en Internet, estaba
escrito en inglés.
Los primeros servidores y servicios de la red
mundial comenzaron a funcionar en Estados Unidos
y los que estamos conectados desde el siglo
pasado seguramente recordaremos que si queríamos
hacer algo tan simple como abrir una cuenta
de correo electrónico (por ejemplo en
Netscape o en el viejo Hotmail, antes que fuera
adquirido por Microsoft) debíamos entender
el inglés, porque no había versiones
disponibles en otros idiomas.
El
tiempo pasó, los usuarios de habla
distinta al inglés fueron cada vez más...
e Internet, fiel a su naturaleza, comenzó a
adaptarse a los cambios.
Escenas de la vida cotidiana
Tony es un refugiado que vive en Argentina,
escapando de una guerra civil en su país.
Para ganarse la vida, una amiga le recomienda
un sitio en Internet desde el que poder hacer
teletrabajo. Va a un cibercafé e intenta
ingresar al sitio, pero está en un
idioma que no es el suyo y que tampoco comprende,
por lo que luego de varios intentos fallidos,
desiste.
Nahuel está orgulloso de sus ancestros
mapuches, por lo que, cuando le proponen en
el colegio hacer un sitio en Internet, no duda
un segundo en hacerlo en mapudungun, la lengua
de sus abuelos. Una vez hecho el sitio y puesto
en línea en Internet, descubre con desagrado
que no aparece entre los sitios de esa lengua
cuando usa algún buscador conocido: ¡Aparece
dentro de los sitios en inglés!
Carlos es ciego y navega Internet con un conocido
lector de pantalla. Desde hace un tiempo que
nota que el programa funciona bien mientras
se navegue en el idioma en el que está configurado,
pero si la página está en un
idioma distinto, u ofrece palabras o frases
del mismo tenor, lo pronuncia de una forma
extraña. Asi, la Casa Blanca estadounidense
es algo asi como "de güite ouse" y
cuando un francés declara su amor, escucha
algo como "je t aime". Un amigo que
conoce del tema le ha dicho que esto se puede
solucionar si los textos en idiomas distintos
se declararan en forma correcta en el código.
El porqué de la internacionalización
Existe una opinión, muy extendida en
ciertos ámbitos, que sugiere la inutilidad
de apoyar la difusión de lenguas distintas
al inglés. Se dice, basándose
en hechos actuales, que el inglés es
la lengua franca del mundo actual, como antes
lo fueron el latín o el francés.
Que es la lengua de intercambio en ámbitos
internacionales como la diplomacia o el comercio
exterior y que cualquiera que desee crecer,
laboralmente hablando, debe estudiar inglés,
sea del país que sea.
Es
una opinión interesante, pero ya
en las mismas razones por las que se la defiende
se encuentran problemas. Se citan como ejemplos
pasados al francés y al latín.
Pero justamente fueron lenguas fuertes en el
pasado. ¿El inglés se impondrá por
siempre o en el futuro hablaremos chino mandarín
o hindi como lenguas de intercambio? Nadie
puede asegurarlo.
Una
alternativa a esta posición es
la que dice que debe darse difusión
sólo a las lenguas "importantes",
y se incluyen en esta categoría, acompañando
al inglés, a un pequeño grupo
que varía de acuerdo al que lo dice:
francés, español, alemán,
japonés, portugués y, ultimamente,
el chino mandarín (1).
Pero
esto es sólo si damos por sentado
que unas lenguas son más importantes
que otras.
¿Esto es así?
¿Qué determina
esa supuesta importancia?:
¿La proporción de hablantes
en una región?
En Paraguay el 94 % de la población
habla guaraní (2). En Bolivia, una importante
porción de la población habla
quechua (24 %) o aymará (14 %).
¿
El que sean lenguas oficiales en una o más
naciones?
Nuevamente en Paraguay, el guaraní es
lengua oficial desde 1995, pero no se lo reconoce
como importante ni siquiera en el Mercosur,
del que Paraguay forma parte desde su fundación.
En Bolivia, desde 2006, las lenguas oficiales
son el español, el quechua, el aymará y
el guaraní.
Aparentemente las únicas razones de
peso para dar más importancia a unas
lenguas sobre otras son la economía
y la política.
El derecho a la propia lengua
A partir de este punto, queda más claro
entonces que todas las lenguas, sin importar
su relativa importancia, tienen derecho a ser
difundidas y apoyadas. Conviene recordar que "mucha
de la vida cultural, espiritual e intelectual
de la gente se vive a través del idioma.
Esto va desde rezos, mitos, ceremonias, poesía,
oratoria y vocabulario técnico, hasta
las formas de saludo diario, estilos conversacionales,
humor, formas de hablar a los niños
y términos únicos para hábitos,
comportamientos y emociones. Cuando un idioma
se pierde, todo esto se tiene que reacomodar
en el nuevo idioma (con categorías diferentes
de palabras, sonidos y estructuras gramaticales)
si es que se conserva." (3)
Cada lengua es un reflejo de una cultura,
una forma de ver el mundo, y cada vez que una
lengua se pierde, un trozo de esa gran familia
que es la raza humana se pierde para siempre.
Un tema, muchos problemas
Una vez que comprendimos la importancia del
tema, veremos que la tarea es enorme y variada.
Los
caminos para lograrlo son varios y complementarios,
la mayoría de ellos muy técnicos
para el común de los lectores, pero
veremos dos claves para esto: la codificación
de las lenguas y la estandarización
de caracteres.
Codificación
de lenguas
Para poder identificar las lenguas, debemos
darle un código único a cada
una.
Luego
de varios intentos previos, en 1988 la Organización Internacional de Estándares
(ISO, sigla de International Standard Organization)
creó la norma internacional ISO 639-1
que identificaba a las lenguas más comunes
con un código de dos letras (5). Pronto
resultó claro que faltaba identificar
muchas lenguas y que el sistema de dos letras
no alcanzaba para todas (ISO 639-1 identificaba
sólo 136 idiomas), por lo que, en el
año 1991 se lanzó la norma ISO
639-2 (4) que le da un código de tres
letras a unos 400 idiomas. (6)
Pero...
la ISO 639-2 seguía sin incluír
a todas las lenguas, solo agrandaba el espectro
de las clasificadas y nada más (7).
En el caso de muchas lenguas de Latinoamérica,
la norma las agrupa por regiones. Así,
la mayoría de las lenguas de Sudamérica
se las agrupa bajo el código genérico
de sai y, en caso de Centroamérica,
cai. Para intentar solucionar este problema,
en el año 2005 se dio a conocer el borrador
de la norma ISO 639-3 que le da un código
individual de tres letras a cada una de las
lenguas (8).
Ante
este conjunto de normas, si escribimos información en una página, deberemos
buscar en la norma ISO 639-1 el código
de dos letras que le corresponda al idioma
en que está escrita dicha información.
Si dicha norma no define un código para
ese idioma, deberemos buscarlo en ISO 639-2
y, si en dicha norma se define un código
genérico en vez de uno específico,
buscaremos en la ISO 639-3 el código
que se define para esa lengua. (9)
Estandarización
de caracteres
El lenguaje inicial de construcciones de
páginas
web, HTML, comenzó estando orientado
al inglés y a todas las lenguas que
usan caracteres de este idioma (a través
del conjunto de caracteres ISO-8859-1), por
lo que caracteres conocidos por nosotros como
las vocales acentuadas, consonantes como ñ o ç o
signos como de comienzo de oración de
admiración o interrogación (¡ y ¿ respectivamente)
quedaban fuera de las páginas web. Recién
en la versión 2.0 de esta norma se permitió la
opción de que una página pueda
ofrecer un conjunto de caracteres distinto.
¿Cómo incluíamos caracteres
especiales en nuestras páginas entonces?
Con los llamados "caracteres de escape" (por
ejemplo á para á), un parche
que nos permitía solucionar el problema,
pero que nos genera otros, como dificultades
a la hora de buscar, indexar o al querer usar
iniciativas más innovadoras, como la
Web Semántica.
Además, seguía siendo imposible
incluír todos los caracteres existentes
en un solo conjunto. Esto recién se
logra con el conjunto de caracteres Unicode
(10) y su implementación tuvo que esperar
hasta la versión 4.0 del lenguaje HTML.
Unicode
nos permite crear páginas web
en cualquier lengua que use cualquier tipo
de caracteres, aunque los problemas aún
persisten ya que a veces los navegadores no
muestran bien algunos caracteres Unicode (11),
pero esto se debe más a razones de compatibilidad
del propio navegador que del estándar.
Así, conviene aclarar que si vamos
a hacer un sitio que contenga sólo caracteres
occidentales, con declarar que vamos a usar
el conjunto de caracteres ISO-8859-1, será suficiente
(12). Ahora, si vamos a usar otro tipo de caracteres
(armenios, árabes, cirílicos,
chinos, hebreos, japoneses, etc.), conviene
declarar el conjunto de caracteres Unicode
o UTF-8 (13).
Y
más...
Direcciones web multilingüales: ¿resulta
molesto escribir la dirección www.nandu.com
del sitio Ñandú.com? Imagínense
lo que le pasa a un japonés, un árabe
o un chino.
Dirección del texto: No todo el mundo
escribe de izquierda a derecha.
Negociación de contenidos para servidores
y lenguajes: ¿Notaron que si uno escribe
en el navegador www.google.com, nos lleva directamente
a la versión Google en nuestro propio
idioma? Es una de las bondades de la negociación
de contenidos.
Formatos de fechas: No todo el mundo muestra
las fechas de la misma forma.
Pero ante todo siempre debemos recordar el
porqué de toda esta tarea: el colaborar
con nuestro granito de arena para lograr una
verdadera red mundial y participativa, en donde
todas las lenguas, aún las más "minoritarias",
tengan su lugar para difundirse y mantenerse
vivas.
Claudio
Segovia
Investigador, docente y consultor en accesibilidad
e internacionalización
en Internet.
claudiosegovia@sidar.org
http://www.inclusiondigital.net/albergue
--------------------------------------------------------------------------------
(1)
La lengua más hablada en el mundo
actualmente con 885 millones de hablantes,
el 13,69 % de la población mundial.
Fuente: http://es.wikipedia.org/wiki/Anexo:Lista_de_lenguas_por_número_de_hablantes
.
(2)
Fuente: http://en.wikipedia.org/wiki/Guaraní_language
.
(3) "Endangered languages", Woodbury,
Anthony, Geoffrey Numberg y Thomas Wason, citado
y traducido en el sitio del Archivo de los
Idiomas Indígenas de Latinoamérica
de la Universidad de Texas (AILLA) en en la
dirección http://www.ailla.utexas.org/site/welcome_sp.html
.
(4) Podemos encontrar el listado completo
en las páginas http://lcweb.loc.gov/standards/iso639-2/langcodes.html
y http://www.oasis-open.org/cover/iso639a.html. (5)
Asi, para el inglés, se debe usar
en, para español, es, para portugués,
pt y para francés, fr,ay para el aymará,
gn para el guaraní y qu para el quechua.
(6)
Ante la posibilidad que un mismo lenguaje
tenga un código de dos letras y otro
de tres letras, como sucede en varios casos,
la norma RFC 3066, complementando la anteriormente
citada, recomienda usar el código de
dos letras. Podemos encontrar el listado completo
de esta norma en la página http://www.ietf.org/rfc/rcf3066.txt.
(7)
Define nuevos códigos como arn
para el mapudungun, roa para el caló o
gitano y car para el caribe.
(8)
Para llevar a cabo la tarea, La ISO toma
de referencia el sistema
de codificación
de una organización llamada SIL (sigla
en inglés de Summer Institute Linguistics
y cuyo sitio en Internet es http://www.sil.org),
que intenta catalogar todas las lenguas del
mundo. A través de su sitio en Internet
llamado Ethnologue (en http://www.ethnologue.com),
ofrece información en línea sobre
más de 6.900 lenguas catalogadas. Los
datos brindados por Ethnologue son usados por
organismos internacionales como las Naciones
Unidas y UNESCO, además de la ISO.
(9)
Como esta norma aún no se ha convertido
en un estándar, y aprovechando una opción
que la norma RFC 3066 ofrece para lenguas no
estandarizadas, en HTML y XHTML se deberá escribir
de la siguiente forma:
<html lang="x-sil-xxx">
Y
en XML deberá usarse:
xml:lang="x-sil-xxx"
Donde
xxx es el código de tres letras
brindado por ISO 639-3. Así, si queremos
definir un texto escrito en Aoniken o Tehuelche,
los respectivos códigos serían:
<html lang="x-sil-teh">
Y...
xml:lang="x-sil-teh"
(10)
Una amplia explicación del tema
se puede hallar en la página http://unicode.org/standard/translations/spanish.html.
(11)
Si tenemos nuestro navegador configurado
con Unicode, a continuación
podremos ver algunos ejemplos de textos en
otros idiomas:

(12)
Con la línea <meta http-equiv="Content-type" content="text/html;
charset=ISO-8859-1" /> en el código.
(13)
Con la línea <meta http-equiv="Content-type" content="text/html;
charset=utf-8" />.
|