jueves, agosto 25, 2005

Vainas de uno

(esta entrada la elaboré, según mi laptop, desde el primero de mayo. No sé porqué no la había subido...)

En la última temporada de la liga de béisbol profesional venezolana, la gente de El Universal creó una aplicación para que se publicaran los resultados de los partidos, los perfiles de los jugadores, en fin, todo lo que alguien querría saber de lo que estaba pasando en la liga.

Yo tuve la oportunidad de ver la aplicación. En un parte la aplicación lista los nombres de los jugadores, en orden alfabético. Saltó a inmediatamente a mi atención (esta clase de cosas siempre lo hacen) que un Ángel estaba listado de último, a pesar de que los Antonio estaban de primeros. Discutí con Oscar (tengo una cierta tendencia a discutir pendejadas con él) que debía arreglar eso (qué horror, madre mía) y descubrí que hacerlo no estaba fácil. No era imposible, pero como cosa rara él tenía cosas más importantes que hacer que garantizar que Álvaro estuviera en su lugar correcto por orden alfabético.

Me quedé pensando un tiempo la cuestión, un par de días. Sin embargo nunca escribí en ninguna parte lo que había concluido. Hoy quizás lo hago porque estoy un poco ocioso, o quizás porque llueve.

Bien, aquí va: los estándares publicados para la trasmisión y almacenamiento de carácteres (me niego a escribir caracteres), entiéndanse los ISO-nnnn, el UNICODE y demás, están fundamental y ultimadamente mal.

Primero, qué es un estándar de estos? Pues hay que recordar que en el fondo, las computadoras sólo entienden de números. Estos estándares definen qué número representa qué símbolo o letra. (Esto causa que uno pueda decir que cero no es cero y tus interlocutores te entiendan como que si no hubieras dicho nada del otro mundo)

No quiere decir que no sirvan, cosa que obviamente es falsa. Sólo que están mal.

Porqué? bien. Esta es mi versión de la historia:

El inglés, en general, contiene sólo el mínimo común del alfabeto latino, y descarta cualquier tipo de gráfico para indicar acentuación. Como los americanos popularizaron primero (no quiero investigar si de hecho inventaron primero) las computadoras y la computación en general, el primer estándar para los caracteres sólo se preocupaba por los símbolos en el alfabeto inglés (que llamaban ASCII). Luego ese alfabeto, desde un punto de vista estadounidense, se fue ampliando (ASCII extendido).

Poco después para evitar incrementos de costos y toda una serie de consecuencias indeseables, los estándares modernos fueron basados en esos antiguos estándares.

El error fundamental de esos estándares es que consideran cada "dibujo" una letra completamente distinta. Es decir a es una letra, y á es otra. Cosa que para cualquier hispanohablante es absurda.

Sin embargo, para complicar la cuestión a quienes elaboran esos estándares, resulta que la regla anterior a veces sí funciona: n es una letra, y ñ es otra.

Eso se complica más en el país que estoy viviendo: å,ä,y ö son letras distintas (como la ñ en español, no como la ü).

Nota aparte, esto es difícil de digerir para mi cerebro: svart significa negro, y svårt difícil, pero mi cerebro tiende a escribir que los carros son difíciles y que la matemática es muy negra.

Para volver al ejemplo de la aplicación de béisbol aquella, lo que ocurría es que utilizaron el mecanismo por defecto para realizar el ordenamiento de los nombres. Ese mecanismo utiliza la relación número-letra para ordenar las palabras. De allí que Álvaro esté de último, porque el número que identifica al símbolo Á es mayor que el que representa a A.

Claro que deberíamos estar agradecidos. Si eso pasa con el español, lo que pasa con idiomas que no usan en absoluto el alfabeto latino debe ser una pesadilla. Por ejemplo, creo que el chino y el coreano comparten una tabla de caracteres, cosa que, en el fondo, debe ser una barbaridad.

Sin comentarios