Generación de metadatos a partir de consultas en buscadores (1er Asalto)
En la mayor parte de los casos, un documento de la web es alcanzado por sus visitantes a través de un buscador sobre el que se hacen una serie de consultas.
Simplificándolo al máximo, cuando se le hace una consulta a un buscador, éste responde seleccionando de entre todos los documentos que tiene indexados aquellos que contienen uno o más términos de la búsqueda.
Centrémonos ahora en un sólo documento, e imaginemos todas las consultas realizadas por los usuarios cuya intención (inicial o posterior) era encontrarlo. Por ejemplo: imaginemos las consultas realizadas por los usuarios para encontrar un documento que contuviese información acerca del Teide.
- Volcán Tenerife
- “Pico más alto” isla “Gran Canaria”
- Accidentes geográficos Canarias
- Montes Tenerife
Entre todas las consultas posibles que retornen el resultado deseado, habrá entonces términos que se encuentren en el documento, como Volcán, Tenerife, Accidente geográfico, etc…, pero habrá otros que no, por ejemplo “Gran Canaria”, que puede ser introducido por una persona que realmente busque El Teide, pero que no sepa que no está en Gran Canaria. (El siguiente diagrama ilustra esta idea)
Sería por tanto interesante, que el buscador tuviese en cuenta aquellos términos que no pertenecen a la bolsa de palabras del documento, pero que son con frecuencia asociados a él.
Los términos de las consultas aportados por cada usuario, formarían parte de la folksonomía del documento.
Para que fuese más útil, la folksonomía podría estructurarse en forma de un grafo cuyos nodos fuesen los términos empleados por los usuarios en las búsquedas, y los arcos representasen una relación semántica entre ellos. Los nodos, además, deberían recoger información tal como su frecuencia de aparición en las búsquedas o su pertenencia o no a la bolsa de palabras del documento (dos medidas de relevancia); los arcos podrían ir etiquetados con el tipo de relación existente entre los términos. La relación semántica entre los términos podría obtenerse de bases de conocimiento existentes, como DBPedia, o WordNet; combinadas con el uso de técnicas NLP, u otras técnicas basadas en análisis estadístico.
La siguiente figura ilustra parte del grafo de los metadatos asociados al documento que describe El Teide. Los términos de mayor frecuencia se representan con nodos más grandes, los nodos en gris son términos que no pertenecen a la bolsa de palabras del documento:
Con los metadatos generados podríamos servir nuevos resultados ante las entradas del usuario, los resultados contendrían no sólo documentos que incluyesen los términos aportados en la consulta, sino documentos a los que otros usuarios querían referirse cuando hicieron consultas con esos términos. Más aún, las relaciones entre términos permitirían expander la consulta alcanzando nuevos documentos.
Esta idea presenta muchas dificultades, algunas son:
- Cómo saber cuál es el resultado de la búsqueda que ha satisfecho al usuario, si es que hay alguno
- Definir algoritmos concretos para la extracción de las relaciones semánticas entre los términos
- Mantener el grafo de metadatos “limpio de polvo y paja”, excluyendo aquellos términos que tengan una frecuencia muy baja.
- Acotar el alcance de las consultas de manera que no se recuperen documentos con un significado muy distante del que necesitan los usuarios
No obstante, “En medio de la dificultad, yace la oportunidad”, por lo que este podría ser un buen filón.
¿Disfrutaste esta entrada? Por qué no dejas un comentario abajo y continúas la conversación, o te suscribes a mi feed y obtienes artículos como este enviados a tu lector de feeds.



Estoy leyendo un artículo sobre folksonomías y búsquedas (Information Retrieval in Folksonomies: Search and Ranking) y hacen referencia a un artículo de Peter Mika en que
.
El artículo en cuestión es “Ontologies Are Us: A Unified Model of Social Networks and Semantics.”. No sé si te servirá, pero quizás te sea interesante.