Generación de metadatos a partir de consultas en buscadores (1er Asalto)
En la mayor parte de los casos, un documento de la web es alcanzado por sus visitantes a través de un buscador sobre el que se hacen una serie de consultas.
Simplificándolo al máximo, cuando se le hace una consulta a un buscador, éste responde seleccionando de entre todos los documentos que tiene indexados aquellos que contienen uno o más términos de la búsqueda.
Centrémonos ahora en un sólo documento, e imaginemos todas las consultas realizadas por los usuarios cuya intención (inicial o posterior) era encontrarlo. Por ejemplo: imaginemos las consultas realizadas por los usuarios para encontrar un documento que contuviese información acerca del Teide.
- Volcán Tenerife
- “Pico más alto” isla “Gran Canaria”
- Accidentes geográficos Canarias
- Montes Tenerife
Entre todas las consultas posibles que retornen el resultado deseado, habrá entonces términos que se encuentren en el documento, como Volcán, Tenerife, Accidente geográfico, etc…, pero habrá otros que no, por ejemplo “Gran Canaria”, que puede ser introducido por una persona que realmente busque El Teide, pero que no sepa que no está en Gran Canaria. (El siguiente diagrama ilustra esta idea)
Sería por tanto interesante, que el buscador tuviese en cuenta aquellos términos que no pertenecen a la bolsa de palabras del documento, pero que son con frecuencia asociados a él.
Los términos de las consultas aportados por cada usuario, formarían parte de la folksonomía del documento.
Para que fuese más útil, la folksonomía podría estructurarse en forma de un grafo cuyos nodos fuesen los términos empleados por los usuarios en las búsquedas, y los arcos representasen una relación semántica entre ellos. Los nodos, además, deberían recoger información tal como su frecuencia de aparición en las búsquedas o su pertenencia o no a la bolsa de palabras del documento (dos medidas de relevancia); los arcos podrían ir etiquetados con el tipo de relación existente entre los términos. La relación semántica entre los términos podría obtenerse de bases de conocimiento existentes, como DBPedia, o WordNet; combinadas con el uso de técnicas NLP, u otras técnicas basadas en análisis estadístico.
La siguiente figura ilustra parte del grafo de los metadatos asociados al documento que describe El Teide. Los términos de mayor frecuencia se representan con nodos más grandes, los nodos en gris son términos que no pertenecen a la bolsa de palabras del documento:
Con los metadatos generados podríamos servir nuevos resultados ante las entradas del usuario, los resultados contendrían no sólo documentos que incluyesen los términos aportados en la consulta, sino documentos a los que otros usuarios querían referirse cuando hicieron consultas con esos términos. Más aún, las relaciones entre términos permitirían expander la consulta alcanzando nuevos documentos.
Esta idea presenta muchas dificultades, algunas son:
- Cómo saber cuál es el resultado de la búsqueda que ha satisfecho al usuario, si es que hay alguno
- Definir algoritmos concretos para la extracción de las relaciones semánticas entre los términos
- Mantener el grafo de metadatos “limpio de polvo y paja”, excluyendo aquellos términos que tengan una frecuencia muy baja.
- Acotar el alcance de las consultas de manera que no se recuperen documentos con un significado muy distante del que necesitan los usuarios
No obstante, “En medio de la dificultad, yace la oportunidad”, por lo que este podría ser un buen filón.
Excuse Moi: Google Android + 11870.com
Acabo de entregar la práctica para la asignatura de Desarrollo de Dispositivos Móviles que cursé esta semana en el máster. Se llama Excuse Moi, y es una aplicación para google Android que haciendo uso del servicio de búsqueda de 11870.com y la API de geolocalización del teléfono es capaz de encontrar negocios que estén cerca del dispositivo en tiempo real.
Además se pueden consultar todos los detalles del negocio provistos por 11870.com, hacer llamadas a su teléfono de contacto y situarlos en un mapa junto con nuestra posición. En relación a los mapas, la ruta entre cada negocio y la ubicación del teléfono es rectilínea porque el servicio de rutas de conducción de Android no funciona correctamente en España. De todas formas, espero solucionarlo pronto consultando otro servicio.
Excuse Moi es mi primera aplicación sobre Android, y a excepción del poco soporte que ofrecen aún las herramientas de desarrollo, la verdad que ha sido una experiencia bastante satisfactoria.
En no mucho tiempo, tengo intención de crear una nueva aplicación, a la que se le indiquen unos conceptos de interés y que avise automáticamente cuando el usuario pase cerca de alguno de ellos, sin necesidad de que el usuario interactúe de forma continua con la aplicación. A ver qué tal sale!
Toma de contacto I - Web Semántica.
Antes de comenzar a recolectar y leer papers estoy leyendo algunos textos introductorios.
He comenzado con un texto sobre Web Semántica, para no ir de vacío y aprovechar mejor el curso que se impartirá en el máster.
El texto es Explorer’s Guide to the Semantic Web de Manning.
En general el libro no está mal, y presenta de forma introductoria la filosofía, los paradigmas y las tecnologías relacionadas con la Web Semántica.
La pega que le veo, es que es de 2004, y lógicamente cojea en cuanto a ceonceptos y tecnologías que han surgido o se han popularizado después, tales como los relacionados con metadatos embebidos en HTML (RDFa, eRDF, microformatos, GRDDL), o aquellos conceptos que tienen que ver con la capas de superiores del layer cake.
Por otro lado, me parece muy interesante la descripción que hace de otros paradigmas para la representación del conocimiento en la web alternativos a RDF, como son los Topic Maps, que aunque no sean muy populares, tienen un gran potencial de cara a estructurar a indexar conocimiento de manera que éste se pueda encontrar y navegar con facilidad.
Sitio.new
Aquí comienza una nueva aventura. Atrás quedó el antiguo sitio, al que siendo sincero no le dediqué la cantidad de tiempo que me habría gustado. Para él un adiós.



