domingo, 30 de diciembre de 2007

La ola semántica : Knol, Ontoworld y mediawiki

Parece que la ola de la web semántica crece. En Julio de 2006 se publico una entrada en Evolving Trends preguntandose si el final de Google llegaría con la expansión de la web semantica y si redes como la wikipedia podrian desplazarlo. Los argumentos eran los siguientes :

  • Solo no puedes con amigos y un buen formato sí : Con el gran volumen de datos a trasladar a los lenguajes necesarios para las busquedas de lenguaje natural ,grandes comunidades como wikipedia, con las herramientas suficientes, podrian completar de forma relativamente sencilla esta transformación. Todo el conocimiento en forma de documentos sobre la wikipedia que ya existe podría pasar a convertirse en datos, convenientemente formateados para las busquedas por ontologias.

  • Si sólo buscas no ganas : Google se limitaría, llegado el caso, a las busquedas: No cuenta con los recursos para construir la base de conocimientos , por lo que tendria una dependencia de las comunidades como wikipedia para el acceso . La ventaja la tendria quien controlara el conocimiento disponible en la mayor parte de dominios posible

En la ultima actualización del articulo que os mencionaba, el autor intentaba responder a 2 preguntas para cerrar el circulo (vereis por que digo esto mas adelante). Las preguntas eran las siguientes :

  • Cómo distinguir la buena de la mala información
  • Cómo distinguir la relevancia de la información

En Septiembre de 2007 empezaron a desafiar a Google, se trata de Powerset un nuevo buscador semantico, aún solo accesible por invitacion y en fase de pruebas. Anuncian que estará disponible en 2008 pero parece que van en serio.

Y este mismo mes (diciembre 2007)Google anuncia a través de su blog oficial su nueva herramienta “colaborativa”, el knol(que por el momento tambien esta en fase de pruebas , solo accesible mediante invitación y sin fecha anunciada para abrirlo al publico).

Si se decía que Google no tenia la comunidad para construir el conocimiento, Google reponde con esta nueva herramienta, pero con algo más, la idea clave, según Google, es dar relevancia a los autores, por lo que los autores en lugar de ser anonimos tendran una gran importancia en las entradas e incluso podran obtener beneficios si deciden añadir publicidad.

Para responder a la relevancia y la calidad de los articulos estaran los motores de posicionamiento de Google y las propias opiniones de los usuarios que podrán valorar el contenido del autor del knol : Los autores competirán en sus opiniones.

De lo que no se habla en el blog es acerca de cómo se formatea la información de sus knols : ¿Se estan preparando para la busqueda semantica y el control sobre el conocimiento que pueda permitirla mas adelante?

Algunos han llegado, este mes, a decir que podria ocurrir lo contrario a lo se cuestionaba en Evolving Trends y que ahora fuera Google quien acabará con la wikipedia

¿Que ocurrirá? No podemos saberlo : ¿Puede el altruismo abierto y anónimo del conocimiento de la wikipedia (o sus nuevas versiones ontologicas) expandirse mas rápido que el egoismo de autor de los knol? Buena parte de la selección estará en como podamos acceder a él : Los buscadores

Algunas referencias :

The semantic mediawiki (Ontoworld)

jueves, 27 de diciembre de 2007

Cuando menos es mas, y mas es diferente

Hace 2 semanas encontre en google una vieja canción de los 80. Me costo dos o tres intentos por que, aunque podia tararearla, no recordaba el numero de Jenny , 867-5309 que escuche por primera vez esa misma semana en un programa de radio (cuando la canción se editó yo sólo tenia 10 años) . Poco mas tarde habia hecho un pedido en una conocida tienda en linea y hoy mientras escribo esto estoy escuchando el disco de Tommy Tutone.

Este viejo disco no es facil de encontrar, fue un éxito en el 82 pero ¿quien lo ha visto en alguna tienda ?, no forma parte de ningún catalogo en ninguna de las tiendas fisicas de discos donde puedes aún remover en los rincones hasta encontrar material que no habias escuchado nunca o incluso ¿alguno de vosotros(as) habia oido hablar de esta canción? y mejor , ¿creeis que los propietarios de sus derechos esperarian una venta en España 25 años despues de editarla?.

Sin ninguna duda ningún propietario o director de ninguna tienda fisica donde dediquen espacio para vender discos permitiria dedicar espacio (y dinero) para un disco sin apenas posibilidades de venderse como este. Pero un disco con apenas posibilidades, tiene posibilidades y si no se vende en una tienda fisica es por lo que Chis Anderson llamó la “tirania de la escasez”.


Chris Anderson, el jefe de redaccion de la revista Wired, escribió un articulo donde explicaba el desequilibrio predecible de Pareto y su famosa teoria de la distribucion (que para el director de la tienda de discos vendria a decir que el 20% de los discos de su catalogo generan el 80% de sus ingresos (1)), pero iba mas allá explicando los cuellos de botella de la distribucion (en nuestro caso el espacio necesario para exponer los discos de nuestra tienda) y de como esta “escasez” trunca la demanda y no hace posible las ventas de aquello que queda fuera, esos que se alejan del 20% .

Pero si el director de esa tienda no tuviera limitaciones para tener disponibles tambien las referencias que tienen pocas posibilidades de ser vendidas, si no tuviera el impacto de la tirania de la escasez ¿Extendería su catalogo?.Ya lo creo, lo haría y tendria tantas referencias como le fuera posible para aprovecharse de la economia “Long Tail”, para no solo aprovechar los beneficios de las ventas de los discos mas solicitados (o mas publicitados) sino tambien aprovecharse de las ventas de esa “Cola Larga” de productos que aunque se venden poco, si el catalogo es suficientemente extenso (la “Cola” es lo suficientemente larga) le permitiria tener importantes beneficios adicionales.


Internet permite que esto sea posible, internet hace posible que la dinámica economica cambie por la cantidad de personas que tienen acceso a lo que se expone y por la cantidad de productos que pueden estar disponibles. De Internet emerge una nueva organización, con otros comportamientos debidos a las cantidades de todo lo que le rodea.


Otro Anderson, el físico y premio nobel Philip W. Anderson, escribió un articulo 10 años antes de la edición del disco de Tommy Tutone. En su articulo “More is different” ("Mas es diferente") describía como la diferencias cuantitativas provocaban diferencias cualitativas. P.W. Anderson lo explicaba por el comportamiento de sistemas físicos de muchos cuerpos a través de la teoria de la ruptura de simetría : Es decir lo que estudiamos parece cambiar en funcion de la cantidad.

Las “propiedades” de una tienda de discos que vende un numero relativamente limitado de cantidades son distintas a las “propiedades” de una tienda que vende comparativamente una cantidad muy superior : Por separado su comportamiento es distinto en relacion a las ventas y cuando llegan a una cantidad suficiente el comportamiento cambia, de manera que no podemos dividirlo, es decir no podriamos intentar vender unicamente la “Long tail” ya que estan “ligadas” al resto del sistema que contiene tambien los discos mas vendidos. La venta de pequeñas cantidades es rentable, pero solo cuando son muchas y van acompañadas de aquellas que se venden mucho

Algunas referencias :
Chris Anderson , La economia Long Tail . 2007 Ed. Plaza Edición (Barcelona) , ISBN: 9788493464264
Philip .W. Anderson, More is different . Revista Science 4 de Agosto 1972:Vol. 177. no. 4047, pp. 393 - 396 .

(1)La teoria del sociologo Vilfredo Federico Damaso Pareto exponía que la proporcion sería 20/80. Chris Anderson en su libro The Long Tail explica que la realidad en la economía se aproxima mas a la proporción 10/80 .
Matematicamente cuando algo se comparte entre un numero suficiente de participantes, habrá siempre un numero k entre 50 y 100 de manera que el k% proviene del (100-k)% de los participantes .

La web semántica por Tim Berners-Lee

Volvere sobre esto, pero para empezar a hablar sobre la web semántica que mejor introducción que la visión de Tim Berners-Lee 6 años despues de su articulo en Scientific American . En fin, dejo que sea él quien lo explique en este video disponible en Technology Review



miércoles, 26 de diciembre de 2007

World Wide “Memex”

Me parece que la mejor manera de empezar es .. por el principio .

Os hablaré de alguien que se preocupaba por lo rápido que, según él, evolucionaba el conocimiento, lo complicado que era acceder a él y poder recordarlo mas tarde. Según sus palabras “[..] podemos afirmar que las cosas han ido empeorando con el tiempo, pues somos capaces de continuar ampliando la extensión del archivo sin apenas ser capaces de consultarlo[..]”, así que imaginó un artefacto que fuera capaz de almacenar todo el conocimiento, con un mecanismo de archivo que pudiera además relacionar todo lo almacenado para consultarlo mas tarde.

Se describía de la siguiente manera “[..]un aparato en el que una persona almacena todos sus libros, archivos y comunicaciones, y que está mecanizado de modo que puede consultarse con una gran velocidad y flexibilidad. En realidad, constituye un suplemento ampliado e íntimo de su memoria[..]” .

Diréis que esto no es nada nuevo y que además se parece sospechosamente a algo que desde hace mucho tiempo se llama world wide web, y es lo que hace posible que yo escriba este blog. Pero es el momento de deciros que quien lo concibió se llamaba Vannevar Bush que lo hizo en 1945, que lo llamó “Memex”, y lo imaginaba con células fotoeléctricas, tubos de rayos catódicos, microfilms y una cacharrería digna de un libro de Julio Verne.

Su articulo, publicado en Julio de 1945, se llamó “Como podríamos pensar” (“As we may think”) y describía como a través de pantallas de rayos catódicos, grabaciones vocales , una técnica de fotografía seca a través de palancas, el uso de válvulas termoiónicas para los cálculos, podía almacenar documentos, relacionarlos entre si y hacer búsquedas entre ellos.

Hasta aquí no estaba nada mal como podía imaginar con esa tecnología los mecanismos para archivar la información y como recuperarla, lo mejor estaba, sin embargo, en la forma asociativa en que imaginaba la indexación (selección por asociación entre todos los "documentos") y la posibilidad de vincular dos documentos de forma permanente .. esto bastante mas tarde sería, gracias a Tim Berners Lee, una red de hipertexto global y fue el origen de la web como la conocemos hoy con una tecnología bastante diferente ;-).

Aún hoy, este “Memex” no ha terminado de construirse, Tim Berners Lee comenzó a hablar de la web semántica en 2001 , Google hace algún tiempo que digitaliza libros para poder buscar dentro de ellos, la wikipedia crece sin parar y Google apuesta en conocimiento con su nuevo quanto, el “knol

Pero de esto otro ya hablaremos