2 February 2006

Folcsonomías y Tags: Como Lograr Un Tagging Efectivo

1. Introducción
Una folcsonomía es un tipo de sistema de clasificación distribuida. Generalmente es creada por un grupo de individuos, típicamente los usuarios de recursos.

Los usuarios agregan tags (etiquetas) a los ítems online, tales como imágenes, videos, marcadores y texto. Esos tags son entonces compartidos y algunas veces refinados.

Photo credit: Vanderwal.net

Una revisión general de las herramientas de marcadores sociales, un área de uso popular de las folcsonomías, apareció en la edición de abril de D-Lib.

En el artículo los autores exponen el abordaje adoptado por los sistemas de clasificación social y los agentes motivadores detrás del tagging o etiquetado. Ellos escriben, "...tags son simplemente un tipo de metadatos y no son un reemplazo para los sistemas de clasificación formal como Dublin Core, MODS, etc.... En vez de eso, son un medio suplementario para organizar información y ordenar los resultados de búsqueda."

En este artículo examinaremos qué es lo que hace que funcionen las folcsonomías.

Coincidimos con la premisa que los tags no son un reemplazo de los sistemas formales, sino que los vemos como la calidad fundamental que hace que el etiquetado de las folcsonomías sea de tanta utilidad.
Comenzamos prestándole atención al tema de las "sloppy tags", (etiquetas desprolijas) un problema que los críticos de las folcsonomías están siempre prestos a señalar, y preguntan si hay manera de que la comunidad que crea las folcsonomías pueda superar dichos problemas y crear sistemas que contribuyan para la investigación y la clasificación.

Continuamos luego cuestionando está metodología de "poner en orden" y los supuestos subyacentes, destacando temas que rodean a la remoción de metadatos de baja calidad, redundantes o sin sentido, y los riesgos potenciales de ordenar demasiado prolijamente y por lo tanto perder la verdadera apertura que ha hecho que las folcsonomías sean tan populares.

2. La falla de la Folcsonomía

Probablemente la mayor falla de los sistemas de folcsonomía actuales - y la queja número uno para aquellos que están más felices con sistemas de clasificación más formales - el que los términos de etiquetado ( tagging) usados en esos sistemas son imprecisos.

Son los usuarios de un sistema de folcsonomía quienes agregan las etiquetas o tags, lo cual significa que los tags a menudo son ambiguos, demasiado personalizados e inexactos. Muchos sitios de folcsonomía solamente permiten metadatos de una sola palabra, resultando en algunos inútiles términos compuestos; la mayoría de los tags generalmente se piensan como de "uso-único"; esto es, aparecer una sola vez en la base de datos de etiquetas. Por el momento hay pocos o ningún control de sinónimos (palabras diferentes, mismo significado) u homónimos (misma palabra, diferentes significado.

Los administradores del sistema no imponen un juicio acerca de los tags escogidos por los usuarios. Las formas plurales y singulares, palabras conjugadas y palabras compuestas pueden ser utilizadas, como también tags especializados y tags "sin sentido" como marcadores únicos que son compartidos entre un grupo de amigos o compañero de trabajo. El resultado es un conjunto caótico y sin control de términos marcados con tags que no son tan aptos para la búsqueda como lo son los vocabularios controlados.
Algunos usuarios no consideran esto un problema; ellos pueden argumentar que los tags están ahí primariamente para ayudar al usuario final quien es el que está enviando, Clay Shirky sostiene que en las folcsonomías no hay tal cosa como sinónimos, porque los usuarios utilizan los tags para razones específicas. Por lo tanto cada palabra diferente seleccionada por el usuario realmente tiene un significado único (por ejemplo cine y películas).

Sin embargo, a medida que los sistemas de tagging se hacen más populares y los críticos del sistema continúan levantando sus voces, muchos de sus defensores responden a los cargos de que hay una "falla folcsonómica" sosteniendo que hay un gran valor adicional en los metadatos "privados" enviados. La optimización de los tags ingresados por el usuario, para mejorar su calidad con el propósito de un reutilización posterior como palabra clave buscable, incrementaría el valor percibido del abordaje de tags folcsonómicos.

3. Tags creados por el usuario

¿Qué son exactamente los tags?

Una definición podría ser que los tags son palabras claves, nombres de categoría o metadatos.

En esencia, un tag simplemente es un conjunto libremente elegido de palabras claves textuales. Sin embargo, porque los tags no son creados por especialistas de la información, por el momento no siguen ninguna guía formal omnipresente. Esto significa que los ítems pueden ser categorizados con cualquier palabra que defina una relación entre el recurso online y un concepto en la mente del usuario. Se puede elegir cualquier número de palabras, alguna de las cuales son representaciones obvias, otras con menos sentido fuera del contexto del autor del tag.

Dos ejemplos bien conocidos de sistemas de folcsonomía, a los cuales nos vamos a referir extensivamente en este artículo son del.icio.us™ y flickr™, ambos servicios pertenecientes a Yahoo. Del.icio.us es un sistema de tagging para URL que se integra con el navegador Firefox por medio de elementos de interfaz bookmarklets de (JavaScript) y ofrece al usuario la posibilidad de almacenar y recuperar sus favoritos en el sitio web del.icio.us e identificar cada URL señalada mediante el tagging con metadatos apropiados. Flickr es un sistema de almacenaje online de fotos que le permite a los usuarios identificar sus fotografías por medio de un conjunto de tags. Cada sitio puede ser navegado o buscar dentro de el recursos que coincidan con un tag en particular.

Para entender cómo podemos hacer que los tags sean más buscables
es importante situarse en la mente de los usuarios y ver porque envían ciertos tags. En este momento, poco se sabe acerca del proceso de decisión detrás de la selección de tags, y los datos cuantitativos son relativamente escasos. Un abordaje útil podría ser examinar las motivaciones de los usuarios cuando agregan tags, ver porque se deciden por alguna palabra en particular, observar cuantos tags agregan y comparar cómo esos mismos ítems son clasificados por otros usuarios. Podría ser también de ayuda como el feedback afecta la utilización de tags y como los usuarios modifican dichos tags a la luz del comportamiento de otros. Sin embargo, tales estudios consumen tiempo y recursos.

Un estudio a pequeña escala llevado a cabo por Ulises Ali Mejias de Ideant destaca varios puntos interesantes, a pesar de que falla en encontrar información concreta respecto a por qué se toman ciertas decisiones.

Una de las conclusiones que Mejias extrae de su estudio es que a pesar de que los tags utilizados a menudo tienen significados ocultos conocidos solamente por su creador, claramente hay ciertos tags repetidos que tienen un significado social compartido junto con el significado personal.
Esos tags son vistos como los que ofrecen el mayor beneficio; los métodos son por lo tanto buscados para alentar su creación y uso. A pesar de que esta es claramente un área para una futura investigación, se sabe más acerca de la distribución de tags. Por ejemplo, es posible ver los top 50 tags agregados por los usuarios de del.icio.us.

Muchos sitios de folcsonomía ofrecen visualizaciones de terceras partes de los tags más populares en el tagging común; hay un número herramientas disponibles que ofrecen una variedad de métodos de visualización, incluyendo tag.alicio.us, extisp.icio.us y facetious.

Tag.alicio.us es un diseño experimental de Olivier Richard que opera como un filtro de tags, recobrando enlaces de del.icio.us de acuerdo a tags y restricciones de tiempo (por ejemplo, tags de esta hora, de hoy o de esta semana).

Extisp.icio.us exhibe una distribución aleatoria de los tags de un usuario determinado, y valuado de acuerdo al número de veces que el usuario ha reutilizado cada tag, y facetious es una reutilización de la base de datos de del.icio.us, la cual hace uso de una clasificación con diferentes facetas, agrupando los tag debajo de encabezados tales como "por lugar" (Iraq, USA, Australia), "por tecnología" (blog, wiki, website) y "por atributo" (rojo, cool, retro).

Leyes de poder y distribución de tags

Adam Mathes, bien conocido por su oportuno paper sobre folksonomies, ha sugerido que la distribución de tags sigue un escenario power law.

Los tags más utilizados son altamente visibles por lo tanto probablemente sean usados por otros usuarios, (pocos tags usados por muchos). Luego habrá un gran número de tags que son usados únicamente por unos pocos usuarios, (muchos tags utilizados por pocos). Y finalmente habrá un enorme número de tags que sean usados solamente por uno o dos usuarios.

Mathes explica ,

"Examinar este tipo de distribución del uso de tags nos puede dar un mejor indicador de sí una folcsonomía converge en términos y fomenta el consenso, o si a medida que la base de usuarios crece, el vocabulario crece a una tasa más regular y la distribución de términos se aplana, tal vez indicando menos consenso. "

Popularidad de tag

Antes de escribir este artículo, condujimos un estudio por nuestra cuenta, recolectando muestras de datos para ver si podíamos determinar hasta qué grado las objeciones populares al tagging folcsonómico estaban basados en hechos.

Tomamos una muestra aleatoria de tags de del.icio.us y de flickr. (La metodología se describe en el Apéndice 1) Al tomar una muestra aleatoria de tags de flickr y determinando la popularidad de cada tag, descubrimos una distribución similar a la predicha por Mathes. La popularidad de tags disminuye muy rápidamente, la curva resultante cae asintóticamente hacia y=1, en una curva característica (ver Gráfico 1).

Gráfico 1: Popularidad de tags aleatorios de flickr

El gráfico 1 muestra el extremadamente amplio rango de popularidad de tags bastante bien. Esta distribución a menudo es graficada en una escala logarítmica (ver Gráfico 2) para comprimir los enormes valores a una escala razonable y mejorar la legibilidad.

Gráfico 2: Curva de popularidad de tags

Esos resultados indican que los tags individuales no dominan los sistemas de de tagging.

De acuerdo con nuestra muestra, solamente diez al quince por ciento de los
tags escogidos en Flickr y del.icio.us son tags individuales. La masa esperada de tags utilizados sólo una vez no está representada en esos resultados. Esto puede ser debido la posibilidad que el texto de Mathes sea de un momento cuando la población de usuarios de ambos sitios era algo inferior. Siendo cada vez más populares, la base de datos está cada vez más profundamente salpicada con tags inusuales, con errores de escritura y términos compuestos, de modo que el "piso" del gráfico puede ser que aumente un poco con el tiempo.

Evidencia anecdótica sustenta la perspectiva de que hay una tendencia natural hacia la convergencia de tags y que existe una estrategia para facilitar éste desarrollo.

Stephen Pinker en su texto The Language Instinct discute los lenguajes pidgin (una combinación de palabras de otros lenguajes carente de cualquier estructura gramatical estable) y creole (una combinación de palabras de otros lenguajes con una gramática única impuesta). El sostiene que el creole provendrá del pidgin si a la gente se le da una oportunidad para hablar con otros. Podría argumentarse qué servicios similares de tagging social creará equipos entornos en el cual podemos evolucionar los vocabularios de metadatos de manera natural.

La evolución mencionada aquí se refiere la producción de una ontología simple, moderadamente estable y compartida, y está afirmación está de acuerdo en que el ejemplo de Pinker está limitado a una sola comunidad. Dentro de un determinado escenario, cultura o agrupamiento social, el proceso progresa a medida que el sistema refleja las elecciones preferidas actuales en el lenguaje, apoyando a cada participante en su propia contribución al grupo.

4. Mejorando la Alfabetización de los Tags

Dado de que ya hay un movimiento hacia la convergencia de tags, ¿cómo podríamos fomentar esa tendencia?

Por el momento hay dos maneras claves en las cuales los
metadatos creados en las folcsonomías puede ser mejorados para la ayudar en las búsquedas:

Educar a los usuarios para agregar "mejores" tags

Mejorar los sistemas para permitir que se agreguen "mejores" tags

Educar a los usuarios

Actualmente muchos usuarios no piensan mucho acerca de la forma en que etiquetan los recursos, y tags malos o "desprolijos" son moneda corriente en las folcsonomías. Las principales bajas generalmente se enumeran así:

Tags mal escritos (ejemplo, bilbioteca, bliboteca)

Tags mal codificados, como puede ser un agrupamiento improbable de palabras (ejemplo, TimBernersLee)

Tags que no siguen convenciones en temas como una mayúscula y un número; la forma singular versus la plural (por ejemplo manzana, manzanas)

Tags personales que no tienen significado para la comunidad en general (por ejemplo miperro)

Tags de un solo uso que aparecen sólo una vez en la base de datos. (por ejemplo perrodeJuan)

Para que las folcsonomías ofrezcan mucho más en la forma de valor social, muchos sienten que la creación de tags necesita hacerse mucho más eficiente; ¿pero son realmente los problemas aquellos descritos arriba?

Tagging observado

Volviendo a los tags que seleccionamos aleatoriamente de flickr y del.icio.us, se observaron las siguientes fallas.

Errores de escritura, codificaciones incorrectas y palabras compuestas: testeándolos con un software de diccionario multilingüe, hallamos que el 40% de los tags de flickr y el 28% de del.icio.us estaban o mal escritos, o provenían de un lenguaje no disponible en el software utilizado, o codificados una manera que no era entendida por el software de diccionario o de palabras compuestas que consistían en más de dos palabras o una mezcla de idiomas.

Palabras que no seguían las convenciones del sistema: Casi 8% de los tags flickr y más del 11% de los tags del.icio.us eran los plurales de palabras.

Símbolos utilizados en los tags : Símbolos como el # fueron utilizados al comienzo de los tags, probablemente como un efecto fortuito como para forzar la interfaz de del.icio.us para licitar los tags al comienzo de la lista alfabética.

Sin embargo, encontramos que los tags de un solo uso fueron menos común de lo que esperábamos.

Estructuras diferente en los diccionarios de palabras tomaron en cuenta un gran número de tags encontrados en nuestro estudio.

Las palabras compuestas a menudo contenían números, por ejemplo en construcciones del tipo "17dejulio" o "abril11". Las convenciones se han hecho populares, como los datos representados de acuerdo al estándar ISO (ejemplo. 20051201 para "1 de Diciembre 2005") y el uso del año como un tag.

Una convención muy popular es geotagging un método simple de codificar latitud y longitud dentro de un solo tag; esto representó más del 2% del total de tags extraídos de flickr.

Una fuente común de tags "mal escritos" estuvo en la transcodificación de otros alfabetos o caracteres. Por ejemplo, la diéresis, la cual es usada comúnmente en Alemán, generalmente se representa por medio del conjunto de caracteres Latin-1. Ya que este conjunto de caracteres a menudo no está disponible, los usuarios alemanes frecuentemente representan un carácter con diéresis umlaut por medio de una caligrafía codificada, tal como la "ue" en reemplazo de la "ü". Este caso en particular ocurrió en varios de las muestras de del.icio.us tags.

Temas técnicos similares existen con la codificación de caracteres en otros lenguajes diferentes, por ejemplo chino, japonés, ruso o checoslovaco. (Esto nos lleva a especular a que la amplia adopción de (y mayor confianza en) Unicode puede ser un factor principal en el éxito de las folcsonomías a nivel mundial.)

A pesar que el grueso de los tags encontrados en nuestras muestras de flickr y del.icio.us combinadas palabras válidas del diccionario del idioma inglés utilizando ortografía estadounidense o británica, los tags de otros países son representados y pueden estar en diferentes lenguajes extranjeros (ver Gráfico tres).

Gráfico 3: Tag de idiomas estimados de una muestra aleatoria de tags de del.icious y flickr

Estimar con precisión el lenguaje fuente de tags se hace dificil tanto por temas técnicos y por el hecho de que mucha palabras existen en múltiples idiomas, a pesar de que frecuentemente con significados o estructuras gramaticales diferentes; por ejemplo el término "son" en el idioma inglés, como en padre-hijo, es utilizado en francés como un adjetivo posesivo y en español como una forma del verbo ser. Afortunadamente, la mayoría, casi un 90% de las palabras reconocidas en el diccionario utilizadas en las muestras tanto de del.icio.us como de flickr son sustantivos.

Sin embargo, la confusión inherente en el tagging folcsonómico se mostró más claramente en una característica común a más del 10% de todas las muestras de tags tomadas de del.icio.us - muchos usuarios intentaron hacer palabras compuestas no simplemente concatenando palabras, sino poniendo un símbolo o una puntuación dentro del tag para representar un espacio.

Esto fue particularmente interesante, porque algunos usuarios parecían estar intentando establecer una estructura jerárquica construyendo un "camino" dentro del tag. Por ejemplo, un usuario etiquetando varias páginas web dentro de del.icio.us en el tema de lenguaje de programación podría etiquetar un tópico como "Devel/C++", un segundo como a "Devel/BASIC", un tercero como "Devel/Perl", y así.

Figure 4: del.icio.us compound word separators

Fijando así en la variación de los símbolos elegidos para éste propósito (ver Gráfico 4),
es claro que no se ha elegido un consenso o una convención de parte de la comunidad usuarios de del.icio.us para jugar el rol de "espacio irrompible". Ya que tales tags compuestos son muy comunes dentro del espacio de tags del.icio.us, éste es un ejemplo de cómo una pequeña guía podría beneficiar a la comunidad tagging en general.

Métodos para mejorar tags

Como muchos en el mundo de información sabrán, mejorar la calidad de los metadatos creados por el usuario no es un fenómeno novedoso.

Los especialistas de la información han luchado muchas veces con los temas implicados y han sugerido diferentes remedios.

Por ejemplo, en un artículo de Ariadne titulado "Improving the Quality of Metadata in Eprint Archives", los autores sugieren la inclusión de un proceso de verificación de la calidad al crear los metadatos.

Mejorar , la alfabetización de tags en el mundo de las folcsonomías implica dos procesos

Primero , la comunidad necesita estar lista para definir reglas y coincidir en sobre una serie de estándares de tags.

Segundo, los usuarios necesitan estar conscientes y aceptar a seguir esas reglas.

Por el momento, a pesar de que no hay un lineamiento estándar de prácticas de buena selección de tags, los que están en la comunidad de la folcsonomía han propuesto varias ideas. Formas en las cuales los tags pueden ser mejorados se presentan a menudo en blogs y sitios de discusión de folcsonomía.

En su artículo sobre la alfabetización de tags, Ulises Ali Mejias sugiere un número de "mejores prácticas" en la selección de tags.
Ellas incluyen:

utilizar el plural en vez del singular

utilizar minúsculas,

agrupar las palabras utilizando guión bajo,

seguir la convención de tags iniciada por otros y
agregar sinónimos.

Otras recomendaciones de Mejas y otros trabajando en esta área son que los usuarios traten de "pensar de manera específica y general al mismo tiempo" y que los tags personales están bien siempre y cuando también se utilicen tags más genéricos.

El consenso entre aquellos que están en la comunidad folcsonómica es que los tags extra siempre son mejores.

Numerosas folcsonomías les permiten a los usuarios modificar sus tags, y hay grandes posibilidades para que los usuarios arreglen las entradas que ya han sido creadas. A pesar que éste. Ya han sido ampliamente discutido, cualquier intento de introducir "mejores prácticas" para los usuarios de sitios de etiquetado, casi seguramente requiere la entusiasta participación de desarrolladores y administradores de sitios. Una de las mejores cosas podría ser establecer un consorcio de algunos lo más sitios populares de folcsonomía, para crear una lista de lineamientos generales.

El tagging se podría mejorar proporcionándoles a los usuarios un conjunto de eurísticas útiles que promuevan una buena selección de tags, como una lista de verificación de preguntas que pueden ser aplicadas al objeto que está siendo etiquetado, para dirigir a la persona realizando dicho tag a varias características prominentes.

Otra idea que puede ser implementada es introducir estructuras dentro de los tags.

Actualmente, los tags generalmente son definidos como palabras simples o compuestas, lo cual significa que la información puede perderse durante el proceso de etiquetado. Tags de una sola palabra pierden la información que generalmente hubiera sido codificada en el orden de las palabras dentro de una frase.

Esto se ve particularmente en el idioma inglés, con la disociación de adjetivos respecto del sustantivo. Por ejemplo, cuando se está etiquetado una foto, quizás quiera utilizar tags para describir un gato negro y un perro blanco. Una vez que el tag de palabra-simple "negro", "gato", "blanco" y "perro" son asimilados dentro de la base de datos, se pierde su significado. Los usuarios que están buscando ya no sabrán cual animal es negro y cuál es blanco. Sin embargo, el problema de la disociación adjetivo/sustantivo no tienen la misma relevancia en idiomas diferentes. En algunos idiomas el tema es evitado o minimizado, por ejemplo ruso o alemán, que impone la declinación del sustantivo y el adjetivo. Respecto a las palabras compuestas, las personas eligen convenciones privadas para indicar relaciones dentro de nombres, pero esas indicaciones son aplicadas para uso personal, no son estándares y por lo tanto no pueden ser utilizadas para aprovechar cualquier ventaja común.

La repetitividad de tags compuestos, incluyendo tags que concatenan más de dos palabras, puede sugerir que los usuarios están perdiendo la riqueza de la estructura de la oración. Si éste fuera realmente el caso, una solución apropiada podría incluir en elegir e imponer un método autorizado de concatenación de términos - "el espacio sin separación" mencionado anteriormente.

A pesar de que muchas palabras compuestas son generadas utilizando caracteres separadores, como este_es_un_tag o yo+etiqueto+luego+existo, o separando palabras por medio de CamelCase (esto es, formatear cada palabra con una letra inicial mayúscula para mejorar la legibilidad), ya que actualmente, hay un gran número de tags que son concatenaciones literales de palabras, las cuales son muy difíciles de interpretar, como "esteesuntagespecial"

Separar esos tags actualmente representa dificultades particulares para los desarrolladores, semejantes a aquellas presentes en las máquinas de traducción por idiomas que permiten palabras compuestas como el alemán, finlandés o griego.

Alentar esos reemplazos mejoraría el potencial para una funcionalidad más rica de búsqueda, como la búsqueda de tags que incluyan un determinado sustantivo o adjetivo, o al menos aumentar la confiabilidad de predicción para el idioma en la cual el tag está escrito.

Otra área interesante de consideración es la de grupos de tags. Este es el etiquetado de tags que resulta en la creación de folcsonomías jerárquicas. Muchos han hablado de como las folcsonomías necesitan evolucionar a través del enlaces a sistemas más formales.

Cómo explica Louis Rosenfeld:

"De hecho, es excitante considerar como éstos dos abordajes pueden complementarse y funcionar como un todo.

Tampoco trabaja especialmente bien por sí mismo: los vocabularios controlados a menudo pierden aportes de autores de contenido y se hacen rígidos, obsoletos y distantes del lenguaje coloquial; la folcsonomías comenzarán a deteriorarse por las razones mencionadas anteriormente.

Tratarlas a ellas como las partes principales como una singular ecología de metadatos la podría exponer a una simbiosis útil: alentar a los autores y a los usuarios a generar folcsonomías, y utilizar esos términos como candidatos para ser incluidos en vocabulario más ricos y más controlados que puedan evolucionar a un mejor soporte de encontrabilidad."

Varios taggers de del.icio.us establecieron una pseudo jerarquía privada de términos, estableciendo convenciones de tag que recuerdan a las estructuras de directorios, como por ejemplo, Programming/C++, Programming/Java, Programming/XHTML.
Más aún, muchos taggers en del.icio.us han preferido realizar tags sobre URL con otras URL, como la dirección web base del servidor (por ejemplo, un tutorial de programación en C# podría estar etiquetado con http://www.microsoft.com). Es difícil no coincidir con esta idea.

Cuando uno etiqueta una fotografía, generalmente incluyendo ubicación como uno o más de los tags. Cuando uno etiqueta un recurso digital, se debería utilizar la organización que uno asocia con el tag, el cuál en la web corresponde a la ubicación general del tag - ¿y que podría ser más lógico que referirse a un organización mediante un identificador único, su dirección web? Sin embargo, hay algo absurdamente recursivo en esta práctica de etiquetado.

Sistemas inteligentes

Además de educar a los usuarios, hay mucho que los creadores de sistemas pueden hacer para mejorar los datos finales que sus sistemas están ayudando a crear.

Hay dos formas principales en la cuales se pueden hacer mejoras.

Primero, se puede hacer mucho al punto en él cual nuevos recursos son aportados al sistema. Una simple verificación de errores potencialmente cuenta por un número de errores de tag - a pesar de que hay menos errores de escritura que lo esperado. Más aún, algunos sitios ya están haciendo sugerencias de tags cuando los usuarios envían recursos. Scrumptious, una reciente extensión de Firefox, ofrece tags populares para cada url. Los sistemas podrían fácilmente sugerir sinónimos, expansiones de acrónimos y cosas similares cuando los usuarios tipean sus tags.

Segundo, se pueden hacer mejoras en la manera en que los sistemasbuscan recursos que ya existen en el mismo. También aquí pueden utilizarse sugerencias de sinónimos, sugiriendo, por ejemplo, "ladybug" en vez de "ladybird" (dos
maneras de referirse al mismo insecto, la mariquita o vaca de san Antonio)

Un área de oportunidad que falta es la de más herramientas de discusión a través de las cuales los usuarios pueden compartir razones para etiquetar las cosas de determinada manera. Por el momento hay poca discusión en los sitios de folcsonomía sobre lo apropiado de los tags. Muchos sitios no ofrecen la oportunidad de proporcionar un feedback de texto a pesar de que algunos le permiten a usted cambiara los metadatos de otros usuarios. Algunos sistemas también proporcionan muy pocas indicaciones sobre las características de la persona cuyos tags están exhibidos; tener más encuentra el perfil del usuario podría ayudar a mejorar la navegación - por ejemplo, el lenguaje preferido del tagger es una pieza valiosa de información contextual.

Entender más sobre quién está enviando ciertos tags posiblemente podría alterar su propia calificación personal de envíos (por ejemplo, "Bob envió eso, el está con PHP y parece ser un buen muchacho, por lo tanto asumo que es de utilidad"). Fijarse en el sitio el perfil del usuario es Ranking Colaborativo , él cual califica a la gente basada en lo útil y oportunas que fueron sus sugerencias.

Hay peligros obvios al establecer un loop de feedback positivo
donde tags potencialmente inadecuados pueden ser reutilizados debido a la popularidad inicial de dicho tag y la subsiguiente exposición como una recomendación de tag. Esto lleva a preguntarse si es preferible tener tags populares (pero tal vez no intuitivamente obvios) o tener una mayor dispersión de tags relativamente poco comunes, posiblemente representando reflexiones más precisas o una dispersión más amplia de puntos de vista. En folcsonomía como en otras disciplinas, la respuesta probable es, "depende".

5. Poniendo todo en su lugar

Ahora que tenemos algunas ideas para la mejora de tags, ¿es el momento de que consideremos probarlas en la práctica?

Examinar el uso de tags y la eventual convergencia o consenso sobre ciertos términos es indudablemente un ejercicio absorbente.sin embargo, implementar estrategias del mundo real basadas en esas suposiciones debe ser abordada con precaución, ya que hay una limitación significante que debe ser reconocida: los diferentes individuos que proporcionan y utilizan los tags son geográfica y culturalmente diversos.

La fuerza de un abordaje folcsonómico a menudo es descrita por su apertura, la posibilidad de cualquier usuario para describir el mundo tal como lo ve.

¿Podría uno esperar que se alcance un consenso de utilidad?

¿Es deseable el consenso en un sistema de etiquetado?

En un sistema basado en tags, hay al menos dos grupos de interesados: aquellos que contribuyen con metadatos en forma de tags, y los consumidores de dichos metadatos.

Estos pueden superponerse; sin embargo, no hay razón para asumir que el consumidor de metadatos debe estar familiarizado con el proceso de envío de metadatos. Mientras que la elección del vocabulario por parte de contribuidor puede haber sido "entrenado" por los diferentes medios discutidos en este artículo, el consumidor de metadatos quizás no haya tenido el beneficio de ese proceso.

Clay Shirky señala:

"El etiquetado mejora con el tamaño.

Con una multiplicidad de puntos de vista la pregunta no es " ¿están etiquetando cualquier enlace 'correctamente?'", sino en cambio " ¿están etiquetando de la manera en que lo hago yo?"

Mientras que al menos alguna otra persona etiquete de la manera en que usted lo haría, usted lo encontrará - utilizar un tesauro para forzar a los tags de los demás a una estrecha sincronía podría en realidad que empeorar el ruido que usted obtiene con su señal. Si no hay un estante, entonces imaginarse siquiera que hay uno para organizar las cosas es un error."

¿Es posible que por intentar ordenar los tags estemos perdiendo el verdadero gancho, atracción o esencia de las folcsonomías?

Las folcsonomías son relacionadas popularmente al estudio antropológico de las llamadas "taxonomías del pueblo", un estudio favorito de antropólogos cognitivos en la década del 60, pero el significado de estos fragmentos de información a menudo es eclipsado por la percepción actual de la folcsonomía como mecanismo popular para la creación de bases de datos de búsqueda generadas por el usuario. Es útil recordar brevemente los orígenes del término, aunque sea solamente para situar las discusiones presentadas aquí respecto de sus antecesoras.

Una taxonomía del pueblo se define más fácilmente contrastándola con una taxonomía científica, un sistema de denominación aplicado objetivamente, independiente de asuntos sociales. Las taxonomías científicas como el sistema taxonómico Linnaean , tienen que ser aplicados de manera independiente de los sentimientos personales del tema.

La emergencia de la "taxonomía del pueblo"
reconoció en los nombres comunes como valiosos de mención, sirviendo funciones útiles dentro de un contexto social y cultural y el estudio de taxonomías del pueblo se mantuvo popular por algún tiempo. Sin embargo, pocos resultados generalizables fueron extraídos de este trabajo, el cual tendía a enfocarse en campos semánticos artificialmente simplificados y a menudo triviales. Finalmente fue re-encuadrado como una etapa en el estudio de estructuras del conocimiento, consenso y entendimiento dentro de los grupos.

Un trabajo posterior de un número de campos proporciona cierto conocimiento en el
campo del problema, pero el tema complejo, abarcando la cultura, idioma y pensamiento. Se ha alcanzado cierto consenso en algunos detalles; la gente parece pensar en términos de campos y el dialecto es un indicador de clase social, nivel de educación y edad.

El subconjunto debido utilizado en una determinada configuración (la naturaleza del vocabulario escogido y la forma el discurso) es al mismo tiempo fascinante y confusa. En términos de Internet, esto es más comúnmente encontrado bajo la forma de "comunidades de discurso", grupos de gente que comparte cierto conjunto de vocabulario o jerga.

Las fortalezas y debilidades de las folcsonomías dentro de los sistemas de clasificación son emergentes de la naturaleza del discurso dentro del contexto. El poema de Thomas Hardy An August Midnight se beneficia de su dialecto:

On this scene enter - winged, horned, and spined - A longlegs, a moth, and a dumbledore

El podría haber escrito en cambio "A crane fly, a moth and a bee", pero su elección del uso de dialecto o nombres comunes fue acertada y el poema fue beneficiado con esta decisión. Sin embargo, un motor de búsqueda no se beneficiaría. A menos que estuviera armado con un diccionario de sinónimos capaz de relacionar
longlegs con Harry Long Legs, el padre long-legs, el papá-long-legs (¡e ignorar las arañas que comparten el nombre!) y la familia Tipulidae, la riqueza del vocabulario de Hardy resultará casi inevitablemente en un tag poco usado con poco valor social - es decir un tag de poca utilidad como término de búsqueda.

Aún peor, el inusual vocabulario de Hardy ha sido eclipsado en términos de significado; sin ninguna manera de inyectar un poco de contexto en una búsqueda del abejorro de Hardy, una forma de persuadir al sistema de que estamos buscando al insecto animado pero no humano conocido como "dumbledore", en vez del director de Hogwarts de Harry Potter, la firma del abejorro es improbable que sea buscada a través del ruido creado por la creación de JK Rowling.

Hardy se ha convertido en la víctima de una colisión de palabras; puede verificarlo preguntándole a Google. La búsqueda del ambiguo "Dumbledore" proporciona 1,870,000 hits. Dando un poco de contexto, podríamos buscar "Albus Dumbledore" por el mago, produciendo 434,000 resultados y "moth dumbledore" por el insecto, recibiendo minúsculos 758 resultados, muchos de los cuales son relevantes para nuestro poeta.

Interfases diseñada para alimentar dichos tags, dialectos, términos poco comunes, arcaicos o conflictivos, son un intento de construir una taxonomía estable, robusta y claramente definida de términos provistos por los usuarios.

Una analogía puede esforzarse entre este y los varios intentos de reformar el idioma inglés, como fue la llegada del Received Pronunciation English, o las diferentes formas de palabras de origen Sajón o Normando. A pesar de que a menudo tienen buen significado, tantas reformas han demostrado históricamente ser un asunto de modas en vez de avances, y no se puede confiar en ellas para producir una forma más estable del lenguaje.

6. Conclusiones

Las investigaciones descritas en este artículo son breves, simples y relativamente acientíficas, como son los números proporcionados en el.

Que los resultados de del.icio.us y flickr tienden a ser más bien similares implican que ellos pueden ser confiables en la medida que un breve análisis de este tipo ofrece. Únicamente aquellos con acceso directo a las bases de datos de del.icio.us y flickr podrá estar conscientes del exacto estado de cosas y como han cambiado a través de los meses.

Los lectores curiosos quizás quieran realizar sus propias investigaciones.

Para nuestro propósito, las características interesantes de los tags no están en el porcentaje preciso de uso, sino en la elección del tag, la elección de la estructura y la elección del lenguaje.

Aproximadamente un tercio de los tags estaban realmente "malformados", en que iban más allá del alcance de un corrector ortográfico multi-idiomático por una razón u otra.
Muchos de ellos no estaban mal escritos sino mal construidos, algunos estos últimos de una manera corregible.

Todavía, posiblemente el problema real con la folcsonomías no son sus caóticos tags sino que están intentando a servir a dos patrones al mismo; la colección personal y la colección colectiva.

¿Es posible tener lo mejor de ambos mundos?

Por el momento, muchas investigaciones de datos de tags se están realizando, incluyendo cómo se pueden utilizar los tags para la búsqueda.

Como una consecuencia, el desarrollo en este campo tiende a confinarse a métodos para mejorar la calidad de los tags contribuidos por los usuarios para este propósito.

En la práctica, esto incluye promover los tags usados comúnmente por encima de aquellos de un solo uso o tags usados de manera infrecuente por varios medios, tal como las mejoras de interfaz de usuario, uso de sinónimos, etcétera.

Es posible que los datos recolectados a través del etiquetado folcsonómico es más completo de lo que habíamos imaginado. Lograr más de esos datos puede ser una pregunta para desarrollar un conjunto apropiado de algoritmos; en otras palabras, revisitar los datos con otro objetivo en mente puede ser de utilidad en algunas categorías de tags "desprolijos"

Algunos tags que un solo uso están diseñados explícitamente para eso, tal es el caso de los marcadores de latitud/longitud utilizados por geomarcadores (flickr). Algunos pueden ser percibidos como valiosos o de utilidad para el lector. Algunos pueden ser de infinita ayuda para propósitos de búsqueda, si la información provista ahí dentro se accede de manera apropiada.

¿Es entonces preferible, en vez de intentar eliminar tags de un solo uso o desprolijos sugerir que cada ítem sea etiquetado con una mezcla de abordajes, incluyendo algunas palabras claves adecuadas para la búsqueda?

¿Podemos estar seguros que entrenar al usuario a una relativamente restringida elección de tags es puramente benéfico, suponiendo que sea posible?

Es probable que surjan otros usos de los metadatos de folcsonomía.
En otras palabras, ¿es nuestra miope visión de los sistemas de búsqueda basados en tag lo que nos conduce a considerar a los metadatos de tag de un solo uso como algo de poca utilidad, como automáticamente tags "malos"? ¿no será que esos tags pueden ser de utilidad en otro campo o contexto?

¿Tienen tales tags valor para uno u otro interesado, mas allá de su uso como término de búsqueda?

Estos son temas para seguir experimentando y observando.

A medida que los diferentes sistemas que hacen uso del tagging evolucionan los tags "desprolijos" pueden ser removidos. Los cambios de interfaz pueden realizarse para desalentar ciertas prácticas, tal el caso de utilizar símbolos como prefijo para forzar a un tag a que aparezca a la cabeza de la lista de tags de uno y para alentar a otros, en el uso de métodos estándar para lo que desean crear frases de tags. Las palabras compuestas arbitrariamente formadas y los tags mal escritos pueden hacerse menos frecuentes y mejor manejados por la interfaz de búsqueda.

El aumento en tamaño y diversidad de uso del sistema de etiquetado de parte de la comunidad, traerá aparejado otros problemas.

Sistemas pensados para sugerir tags comunes o populares están siendo entrenados para promover la hegemonía de tags que surgen de la primera población de usuarios; para buscar de manera efectiva, quizás se les pida a los nuevos usuarios a que adivinen convenciones que no son para ellos más obvias que las taxonomías formales reemplazadas por las folcsonomías.

Mejorar la usabilidad a través de las culturas necesita reconocer los problemas que el idioma, dialecto y jerga representan.

Desalentar a los usuarios puede significar que ellos simplemente no se molesten en etiquetar otros recursos.

La respuesta es mantenerse con la mente abierta y buscar soluciones que retenga tanto como sea posible los metadatos enviados, teniendo en mente que esos metadatos pueden ser examinados en múltiples formas.

Amy Gahran de Contentious señala que "Una folcsonomía mezcla, diverge y evoluciona de la misma manera que lo hace el idioma, a través del uso y la interacción." Esta es una de las grandes fortalezas de la folcsonomía.

Hay un peligro real que por ordenar los tags estamos perdonando la implementación de una solución destructiva que puede perder valiosos metadatos.

Las dos preguntas que necesitamos respondernos pueden ser:

1) Incluso suponiendo que dicho consenso fuera posible, ¿realmente queremos un mundo donde todos hablen un definido colaborativamente análogo al inglés de la Reina?

2) ¿Hasta qué grado, en esta instancia, con una base de datos fantásticamente compleja y valiosa de contribuciones de usuarios de todo el mundo, es posible separar metafóricamente el bebé del agua de baño?

Apéndice 1: Metodología

En este artículo, quisimos determinar hasta qué grado las objeciones populares al etiquetado folcsonómico están basadas en hechos. Por lo tanto, un necesario primer paso fue recolectar un conjunto de datos de muestra con los cuales trabajar. Para establecer este conjunto de datos, se extrajeron tags de muestra de del.icio.us y flickr de la manera siguiente:

Un número de nombres usuarios se tomaron de las "Más recientes actualizaciones" de cada sitio web. Esos nombres se utilizaron para acceder al alimentador RSS del tags de cada usuario, en el caso que existiera o del listado web, en el caso contrario. Los tags resultantes fueron agrupados. Se escogió uno subconjunto aleatorio de aproximadamente tres mil de esos tags y el número de instancia de cada tag fue calculado.

Esta metodología claramente no proporcione información sobre la popularidad de los tags más frecuentemente utilizados, ya que probable que solamente un pequeño porcentaje de los tags más frecuentemente usados estén representados en el subconjunto escogido. Sin embargo, los tags menos populares fueron de mayor interés para los propósitos de este artículo.

Para chequear la escritura correcta de tags, utilizamos la herramienta común de Unix, aspell verificando cada tag con varios diccionarios por medio de un script Perl. Para los tags que fueron validados exitosamente en inglés, la clase palabra se determinó utilizando el sistema de referencia de léxico de la Universidad de Princeton Wordnet.

La precisión de esos resultados se podría haber mejorado haciendo uso del sistema de raíz de la palabras, particularmente en idiomas diferentes del inglés, por ejemplo, haciendo uso del módulo Stem Perl Lingua

acerca de los autores:
Este paper de investigación fue escrito originalmente por
Marieke Guy y
Emma Tonkin
y publicado por primera vez el 17 de enero, 2006 porD-Lib magazine con el título:
Folksonomies - Tidying up Tags?
Reimpreso con la autorización de los autores.

Guy Marieke y Emma Tonkin -
Referencia: DLib Magazine [ Seguir leyendo ]

Si te gustó la nota puedes recibir actualizaciones suscribiéndote via RSS o via email.

O compartirla: