PoC: An environment to build social applications using Windows Workflow 4
The following video shows a visual editor for building domain specific workflows. It has been developed using Visual Studio 2010 CTP surrounding technologies.
Its aim is to proove what can be achieved by composing Windows Workflow Foundation 4 activities, and demonstrate that any person, even without programming experience, can easily build applications, that in this case exploit social data contained in Facebook.
Automatically getting bibliography using existing bibliographic search engines
Apart from resting for a few weeks, and spending time learning python and django, this Summer I developed an application that lets you retrieve a huge set of research papers from a small set of titles that act as seeds.
Although it’s just a proof of concept, the application (codenamed Librarian) works really well, and saves a lot of time searching for bibliography related to a small set of articles, which is the most common use case when studying the state of the art of a new investigation.
Simplifying a lot, Librarian works as follows:
The user provides the titles of some articles that he has already read, and a lower limit for the size of the set of documents that should be retrieved.
Due to the computational cost of the search, the application presents the user with the URL of a feed, which he will use to track the progress of the request. At the same time, it launches a batch process to actually perform the search.
In each step, the batch process takes the most relevant article from the queue of articles to be processed (initially the seeds) and scrapes CiteseerX for citations, and Google Scholar for inverse citations and related articles. These references are once more added to the queue of to-be-processed articles, and the process continues until the number of explored articles exceeds the given limit.
The relevance of each article is used to select the next candidate to explore. This is calculated by applying an exponential decay relative to its number of cites with the distance between the article and any of the seeds, where the distance is the number of jumps to get from the seed to the article through intermediate references.
Finally, the outcome of the process is a set of articles that are directly or indirectly related to the seeds, and therefore contains a quite representative sample-of-the-art initially bounded by the articles provided.
Although the results yielded by the tool are not so good as those obtained manually, with a minimum effort and some iterations, you can get excellent results that can save you a lot of work, reducing the time consumed to collect bibliography from days or even weeks, to hours.
–The article has been proofread with the help of David Correa
Generación de metadatos a partir de consultas en buscadores (1er Asalto)
En la mayor parte de los casos, un documento de la web es alcanzado por sus visitantes a través de un buscador sobre el que se hacen una serie de consultas.
Simplificándolo al máximo, cuando se le hace una consulta a un buscador, éste responde seleccionando de entre todos los documentos que tiene indexados aquellos que contienen uno o más términos de la búsqueda.
Centrémonos ahora en un sólo documento, e imaginemos todas las consultas realizadas por los usuarios cuya intención (inicial o posterior) era encontrarlo. Por ejemplo: imaginemos las consultas realizadas por los usuarios para encontrar un documento que contuviese información acerca del Teide.
- Volcán Tenerife
- “Pico más alto” isla “Gran Canaria”
- Accidentes geográficos Canarias
- Montes Tenerife
Entre todas las consultas posibles que retornen el resultado deseado, habrá entonces términos que se encuentren en el documento, como Volcán, Tenerife, Accidente geográfico, etc…, pero habrá otros que no, por ejemplo “Gran Canaria”, que puede ser introducido por una persona que realmente busque El Teide, pero que no sepa que no está en Gran Canaria. (El siguiente diagrama ilustra esta idea)
Sería por tanto interesante, que el buscador tuviese en cuenta aquellos términos que no pertenecen a la bolsa de palabras del documento, pero que son con frecuencia asociados a él.
Los términos de las consultas aportados por cada usuario, formarían parte de la folksonomía del documento.
Para que fuese más útil, la folksonomía podría estructurarse en forma de un grafo cuyos nodos fuesen los términos empleados por los usuarios en las búsquedas, y los arcos representasen una relación semántica entre ellos. Los nodos, además, deberían recoger información tal como su frecuencia de aparición en las búsquedas o su pertenencia o no a la bolsa de palabras del documento (dos medidas de relevancia); los arcos podrían ir etiquetados con el tipo de relación existente entre los términos. La relación semántica entre los términos podría obtenerse de bases de conocimiento existentes, como DBPedia, o WordNet; combinadas con el uso de técnicas NLP, u otras técnicas basadas en análisis estadístico.
La siguiente figura ilustra parte del grafo de los metadatos asociados al documento que describe El Teide. Los términos de mayor frecuencia se representan con nodos más grandes, los nodos en gris son términos que no pertenecen a la bolsa de palabras del documento:
Con los metadatos generados podríamos servir nuevos resultados ante las entradas del usuario, los resultados contendrían no sólo documentos que incluyesen los términos aportados en la consulta, sino documentos a los que otros usuarios querían referirse cuando hicieron consultas con esos términos. Más aún, las relaciones entre términos permitirían expander la consulta alcanzando nuevos documentos.
Esta idea presenta muchas dificultades, algunas son:
- Cómo saber cuál es el resultado de la búsqueda que ha satisfecho al usuario, si es que hay alguno
- Definir algoritmos concretos para la extracción de las relaciones semánticas entre los términos
- Mantener el grafo de metadatos “limpio de polvo y paja”, excluyendo aquellos términos que tengan una frecuencia muy baja.
- Acotar el alcance de las consultas de manera que no se recuperen documentos con un significado muy distante del que necesitan los usuarios
No obstante, “En medio de la dificultad, yace la oportunidad”, por lo que este podría ser un buen filón.
Excuse Moi: Google Android + 11870.com
Acabo de entregar la práctica para la asignatura de Desarrollo de Dispositivos Móviles que cursé esta semana en el máster. Se llama Excuse Moi, y es una aplicación para google Android que haciendo uso del servicio de búsqueda de 11870.com y la API de geolocalización del teléfono es capaz de encontrar negocios que estén cerca del dispositivo en tiempo real.
Además se pueden consultar todos los detalles del negocio provistos por 11870.com, hacer llamadas a su teléfono de contacto y situarlos en un mapa junto con nuestra posición. En relación a los mapas, la ruta entre cada negocio y la ubicación del teléfono es rectilínea porque el servicio de rutas de conducción de Android no funciona correctamente en España. De todas formas, espero solucionarlo pronto consultando otro servicio.
Excuse Moi es mi primera aplicación sobre Android, y a excepción del poco soporte que ofrecen aún las herramientas de desarrollo, la verdad que ha sido una experiencia bastante satisfactoria.
En no mucho tiempo, tengo intención de crear una nueva aplicación, a la que se le indiquen unos conceptos de interés y que avise automáticamente cuando el usuario pase cerca de alguno de ellos, sin necesidad de que el usuario interactúe de forma continua con la aplicación. A ver qué tal sale!
Toma de contacto I - Web Semántica.
Antes de comenzar a recolectar y leer papers estoy leyendo algunos textos introductorios.
He comenzado con un texto sobre Web Semántica, para no ir de vacío y aprovechar mejor el curso que se impartirá en el máster.
El texto es Explorer’s Guide to the Semantic Web de Manning.
En general el libro no está mal, y presenta de forma introductoria la filosofía, los paradigmas y las tecnologías relacionadas con la Web Semántica.
La pega que le veo, es que es de 2004, y lógicamente cojea en cuanto a ceonceptos y tecnologías que han surgido o se han popularizado después, tales como los relacionados con metadatos embebidos en HTML (RDFa, eRDF, microformatos, GRDDL), o aquellos conceptos que tienen que ver con la capas de superiores del layer cake.
Por otro lado, me parece muy interesante la descripción que hace de otros paradigmas para la representación del conocimiento en la web alternativos a RDF, como son los Topic Maps, que aunque no sean muy populares, tienen un gran potencial de cara a estructurar a indexar conocimiento de manera que éste se pueda encontrar y navegar con facilidad.
Sitio.new
Aquí comienza una nueva aventura. Atrás quedó el antiguo sitio, al que siendo sincero no le dediqué la cantidad de tiempo que me habría gustado. Para él un adiós.



