Beca alzado 2009
Con un día de retraso, la noche de ayer se publicó el resultado de la beca alzado, de la que Brenes y yo fuimos candidatos.
La beca alzado se presentó de la siguiente manera:
Nueva edición de la beca alzado 2009. 3.000 euros para la mejor idea web. Envía tu idea, índicanos si la podemos publicar o no y a por ello.
Si leeis con detalle el anuncio de la beca, veréis que no se hace alusión al apoyo de una idea empresarial, sino al de una idea web innovadora.
El caso es que la beca quedó desierta, causándose un revuelo cargado de indignación y también de lloros y lamentos infantiles, pero también de una actitud un tanto irresponsable por parte de la organización, que justificó su decisión de dejar la beca desierta en base a criterios arbitrarios no descritos de forma previa al fallo.
Nuestro proyecto, que a grandes rasgos consiste en una plataforma para mejorar la recuperación de información en buscadores de ámbito local, fue uno de los 5 finalistas de entre los más de 100 participantes, y dado que se aleja bastante de lo que es montar una web, me imagino (a falta de confirmación) que será el proyecto al que se refiere el siguiente párrafo extraído de el restultado del fallo:
En otro caso, el otro finalista, aunque el perfil era muy interesante, el proyecto se alejaba mucho de nuestra filosofía de proyectos y decidimos que, aunque sería interesante apoyar a la persona, el proyecto presentado no se ajustaba a nuestro perfil.
Dejando a un lado la falta de transparencia y la libre interpretación de las bases de la beca (que pasó de ser un concurso de ideas “para mejorar la web” a un concurso de proyectos empresariales), creo que se debe algo a los participantes: Saber si lo que estamos compartiendo tiene sentido, si hay algo que no cuadra, o si sería mejor enfocarlo de otra manera… en resumen: Feedback. Eso es lo mínimo que espero de compartir mis (nuestras) ideas con alguien.
Hierarchical Taxonomy Extraction By Mining Topical Query Sessions
Recently, I went to Funchal to attend KDIR 09 and present a work on query-log mining that Dani and I are currently developing.
It was the first time I attended an event of this kind, and it was a great experience. I met lot of nice people with brilliant ideas and excellent manners with whom I had the opportunity to discuss and share views. This downplayed the fact that some of the lecturers where more worried about just showing their work and then gorge theirselves on the buffet, then to share knowledge, which in my opinion is an extremely disrespectful attitude.
Anyway, the good things outweighed the bad ones, and Ana and I had the opportunity to visit wonderful places and spend a unforgettable week, first in La Madeira, and then in Lisbon and Porto.
Up-to-date
There has been a long time since my last public post. And some of you asked me why I don’t write more often. Well, the truth is that I’m too lazy to write on my blog on a regular basis, and also most of the content on this web log is private –Hey! What else is a log?– because I need a way to take notes ‘as is’ without caring about whether what I write is correct or not, if it is in (bad) English or in Spanish, or could be considered wrong, unscientific or whatever. So, if you are following my updates hoping to get a constant stream of information, please, don’t waste your valuable time =)
And now I have confessed, I’m going to talk a bit about cats, I have to say that the past months where a bit hard. I became independent, I began working on a new company (and as a consequence I’m learning a lot about Software Engineering and Web Analytics ), I also attended to the Madrid Mozilla Technologies Course , and thanks to Dani, my mentor, adviser, and also a really good friend (as unintentionally he has shown me); I managed to publish a research paper on query-log mining in the proceedings of the International Conference on Knowledge Discovery and Information Retrieval.
Anyway, that is life! (and I enjoy it) , and now I have four months ahead of me to work very very hard and finish my Master Thesis. During that time, I guess I’m not going to write a lot (at least publicly), but I promise to give more details on the aforementioned research, and the current and future work derived from it.
PoC: An environment to build social applications using Windows Workflow 4
The following video shows a visual editor for building domain specific workflows. It has been developed using Visual Studio 2010 CTP surrounding technologies.
Its aim is to proove what can be achieved by composing Windows Workflow Foundation 4 activities, and demonstrate that any person, even without programming experience, can easily build applications, that in this case exploit social data contained in Facebook.
Automatically getting bibliography using existing bibliographic search engines
Apart from resting for a few weeks, and spending time learning python and django, this Summer I developed an application that lets you retrieve a huge set of research papers from a small set of titles that act as seeds.
Although it’s just a proof of concept, the application (codenamed Librarian) works really well, and saves a lot of time searching for bibliography related to a small set of articles, which is the most common use case when studying the state of the art of a new investigation.
Simplifying a lot, Librarian works as follows:
The user provides the titles of some articles that he has already read, and a lower limit for the size of the set of documents that should be retrieved.
Due to the computational cost of the search, the application presents the user with the URL of a feed, which he will use to track the progress of the request. At the same time, it launches a batch process to actually perform the search.
In each step, the batch process takes the most relevant article from the queue of articles to be processed (initially the seeds) and scrapes CiteseerX for citations, and Google Scholar for inverse citations and related articles. These references are once more added to the queue of to-be-processed articles, and the process continues until the number of explored articles exceeds the given limit.
The relevance of each article is used to select the next candidate to explore. This is calculated by applying an exponential decay relative to its number of cites with the distance between the article and any of the seeds, where the distance is the number of jumps to get from the seed to the article through intermediate references.
Finally, the outcome of the process is a set of articles that are directly or indirectly related to the seeds, and therefore contains a quite representative sample-of-the-art initially bounded by the articles provided.
Although the results yielded by the tool are not so good as those obtained manually, with a minimum effort and some iterations, you can get excellent results that can save you a lot of work, reducing the time consumed to collect bibliography from days or even weeks, to hours.
–The article has been proofread with the help of David Correa
Generación de metadatos a partir de consultas en buscadores (1er Asalto)
En la mayor parte de los casos, un documento de la web es alcanzado por sus visitantes a través de un buscador sobre el que se hacen una serie de consultas.
Simplificándolo al máximo, cuando se le hace una consulta a un buscador, éste responde seleccionando de entre todos los documentos que tiene indexados aquellos que contienen uno o más términos de la búsqueda.
Centrémonos ahora en un sólo documento, e imaginemos todas las consultas realizadas por los usuarios cuya intención (inicial o posterior) era encontrarlo. Por ejemplo: imaginemos las consultas realizadas por los usuarios para encontrar un documento que contuviese información acerca del Teide.
- Volcán Tenerife
- “Pico más alto” isla “Gran Canaria”
- Accidentes geográficos Canarias
- Montes Tenerife
Entre todas las consultas posibles que retornen el resultado deseado, habrá entonces términos que se encuentren en el documento, como Volcán, Tenerife, Accidente geográfico, etc…, pero habrá otros que no, por ejemplo “Gran Canaria”, que puede ser introducido por una persona que realmente busque El Teide, pero que no sepa que no está en Gran Canaria. (El siguiente diagrama ilustra esta idea)
Sería por tanto interesante, que el buscador tuviese en cuenta aquellos términos que no pertenecen a la bolsa de palabras del documento, pero que son con frecuencia asociados a él.
Los términos de las consultas aportados por cada usuario, formarían parte de la folksonomía del documento.
Para que fuese más útil, la folksonomía podría estructurarse en forma de un grafo cuyos nodos fuesen los términos empleados por los usuarios en las búsquedas, y los arcos representasen una relación semántica entre ellos. Los nodos, además, deberían recoger información tal como su frecuencia de aparición en las búsquedas o su pertenencia o no a la bolsa de palabras del documento (dos medidas de relevancia); los arcos podrían ir etiquetados con el tipo de relación existente entre los términos. La relación semántica entre los términos podría obtenerse de bases de conocimiento existentes, como DBPedia, o WordNet; combinadas con el uso de técnicas NLP, u otras técnicas basadas en análisis estadístico.
La siguiente figura ilustra parte del grafo de los metadatos asociados al documento que describe El Teide. Los términos de mayor frecuencia se representan con nodos más grandes, los nodos en gris son términos que no pertenecen a la bolsa de palabras del documento:
Con los metadatos generados podríamos servir nuevos resultados ante las entradas del usuario, los resultados contendrían no sólo documentos que incluyesen los términos aportados en la consulta, sino documentos a los que otros usuarios querían referirse cuando hicieron consultas con esos términos. Más aún, las relaciones entre términos permitirían expander la consulta alcanzando nuevos documentos.
Esta idea presenta muchas dificultades, algunas son:
- Cómo saber cuál es el resultado de la búsqueda que ha satisfecho al usuario, si es que hay alguno
- Definir algoritmos concretos para la extracción de las relaciones semánticas entre los términos
- Mantener el grafo de metadatos “limpio de polvo y paja”, excluyendo aquellos términos que tengan una frecuencia muy baja.
- Acotar el alcance de las consultas de manera que no se recuperen documentos con un significado muy distante del que necesitan los usuarios
No obstante, “En medio de la dificultad, yace la oportunidad”, por lo que este podría ser un buen filón.
Excuse Moi: Google Android + 11870.com
Acabo de entregar la práctica para la asignatura de Desarrollo de Dispositivos Móviles que cursé esta semana en el máster. Se llama Excuse Moi, y es una aplicación para google Android que haciendo uso del servicio de búsqueda de 11870.com y la API de geolocalización del teléfono es capaz de encontrar negocios que estén cerca del dispositivo en tiempo real.
Además se pueden consultar todos los detalles del negocio provistos por 11870.com, hacer llamadas a su teléfono de contacto y situarlos en un mapa junto con nuestra posición. En relación a los mapas, la ruta entre cada negocio y la ubicación del teléfono es rectilínea porque el servicio de rutas de conducción de Android no funciona correctamente en España. De todas formas, espero solucionarlo pronto consultando otro servicio.
Excuse Moi es mi primera aplicación sobre Android, y a excepción del poco soporte que ofrecen aún las herramientas de desarrollo, la verdad que ha sido una experiencia bastante satisfactoria.
En no mucho tiempo, tengo intención de crear una nueva aplicación, a la que se le indiquen unos conceptos de interés y que avise automáticamente cuando el usuario pase cerca de alguno de ellos, sin necesidad de que el usuario interactúe de forma continua con la aplicación. A ver qué tal sale!
Toma de contacto I - Web Semántica.
Antes de comenzar a recolectar y leer papers estoy leyendo algunos textos introductorios.
He comenzado con un texto sobre Web Semántica, para no ir de vacío y aprovechar mejor el curso que se impartirá en el máster.
El texto es Explorer’s Guide to the Semantic Web de Manning.
En general el libro no está mal, y presenta de forma introductoria la filosofía, los paradigmas y las tecnologías relacionadas con la Web Semántica.
La pega que le veo, es que es de 2004, y lógicamente cojea en cuanto a ceonceptos y tecnologías que han surgido o se han popularizado después, tales como los relacionados con metadatos embebidos en HTML (RDFa, eRDF, microformatos, GRDDL), o aquellos conceptos que tienen que ver con la capas de superiores del layer cake.
Por otro lado, me parece muy interesante la descripción que hace de otros paradigmas para la representación del conocimiento en la web alternativos a RDF, como son los Topic Maps, que aunque no sean muy populares, tienen un gran potencial de cara a estructurar a indexar conocimiento de manera que éste se pueda encontrar y navegar con facilidad.
Sitio.new
Aquí comienza una nueva aventura. Atrás quedó el antiguo sitio, al que siendo sincero no le dediqué la cantidad de tiempo que me habría gustado. Para él un adiós.



