OpenCalais, comme vous avez pu le découvrir sur le blog de Marguerite, est une solution qui permet d'automatiquement connecter du contenu indexé à vos pages. Pour cela, il analyse le texte que vous lui passez en entré, et cherche tous les termes dans ce texte qui pourrait avoir un sens précis. Petite démonstration :
Si l'on prend par exemple ce ticket, et que l'on s'amuse a voir ce que OpenCalais peut faire avec, voici le résultat (Cette démonstration est faite à partir des services SOAP d'OpenCalais) :
1) Formattage de la réponse d'OpenCalais
Tout d'abord, intéressons-nous au formattage du résultat. Le document résultant de l'analyse d'OpenCalais se découpe en trois parties. Tout d'abord, nous avons le texte passé en entré, puis les informations du compte OpenCalais utilisé avec notamment votre clé pour l'API d'OpenCalais, et enfin les données trouvées. OpenCalais présente celles-ci en 3 étapes : Le Typage de la donnée, la Référence dans le texte et la pertinence de la donnée.
Ex :
<rdf:Description rdf:about="http://d.opencalais.com/genericHasher-1/b2cabd39-0545-3e1d-8ecb-92e45330f527">
<rdf:type rdf:resource="http://s.opencalais.com/1/type/em/e/URL"/>
<c:name>http://blog.leenhardt.name</c:name>
</rdf:Description>
<rdf:Description rdf:about="http://d.opencalais.com/dochash-1/9170c549-355f-36c2-b648-ca4c0dc9b9fb/Instance/1">
<rdf:type rdf:resource="http://s.opencalais.com/1/type/sys/InstanceInfo"/>
<c:docId rdf:resource="http://d.opencalais.com/dochash-1/9170c549-355f-36c2-b648-ca4c0dc9b9fb"/>
<c:subject rdf:resource="http://d.opencalais.com/genericHasher-1/b2cabd39-0545-3e1d-8ecb-92e45330f527"/>
<!--URL: http://blog.leenhardt.name; -->
<c:detection>[je lis très souvent dont je vais vous parler : ]http://blog.leenhardt.name[/ Ceux qui s'intéresse aux moteurs de recherche,]</c:detection>
<c:prefix>je lis très souvent dont je vais vous parler : </c:prefix>
<c:exact>http://blog.leenhardt.name</c:exact>
<c:suffix>/ Ceux qui s'intéresse aux moteurs de recherche,</c:suffix>
<c:offset>111</c:offset>
<c:length>26</c:length>
</rdf:Description>
<rdf:Description rdf:about="http://d.opencalais.com/dochash-1/9170c549-355f-36c2-b648-ca4c0dc9b9fb/Relevance/1">
<rdf:type rdf:resource="http://s.opencalais.com/1/type/sys/RelevanceInfo"/>
<c:docId rdf:resource="http://d.opencalais.com/dochash-1/9170c549-355f-36c2-b648-ca4c0dc9b9fb"/>
<c:subject rdf:resource="http://d.opencalais.com/genericHasher-1/b2cabd39-0545-3e1d-8ecb-92e45330f527"/>
<c:relevance>0.571</c:relevance>
</rdf:Description>
2) Les URLs
OpenCalais n'a pas de mal a repérer une URL, déterminer ce qui l'entoure, et donner une note de pertinence à ce lien. Notons le commentaire explicatif sur le site officiel d'OpenCalais à propos de la note de pertinence :
"The relevance capability detects the importance of each unique entity and assigns a relevance score in the range 0-1 (1 being the most relevant and important). The score has 3-digit precision after the decimal point. The relevance scoring takes into account the disambiguation of companies and geographies so that each unique entity will get a single relevance score, even if it is referenced in various ways throughout the text. By default, Entity Relevance is turned on, but it can be turned off by configuring the calculateRelevanceScore parameter in paramsXML."
Voila, on ne nous explique pas tellement la formule du calcul mais par contre, on nous dit que la même entité peut avoir autant de scores que de formes dans le texte. Bien entendu, cela reste un calcul extrêmement complexe, et c'est d'ailleurs pourquoi, tout du moins je suppose, OpenCalais propose de ne pas le calculer et configurant les paramètres de la requête.
3) Le reste?
Là ou je suis un peu plus déçu par OpenCalais, c'est sur le reste du billet.
1ère erreur : A l'analyse de "Bonne lecture à tous de ce très bon blog !", OpenCalais détermine que "Bonne" fait référence à la ville de Bonne, ce qui malheureusement est une grossière erreur qui pourrait je pense être corrigé, ou du moins atténué, si l'on utilisait des dictionnaires de noms propres, noms communs, et adjectifs. Bien entendu, je n'imagine pas cela facile, et encore moins parfait, cependant j'ai bonne espoir que ce genre d'erreur bête disparaitrait dans la majeure partie des cas.
Autre point, OpenCalais ne sait reconnaitre une URL que si celle-ci fait partie du texte, et non dans un balisage HTML. On notera par exemple qu'il ne se repère même pas lui-même comme étant une URL dans ce genre de cas :
<a title="OpenCalais" href="http://www.opencalais.com/" target="_parent">OpenCalais</a>
Voila, mon premier test réel d'OpenCalais me démontre que l'on ne peut encore en faire une utilisation générale sur ses propres sites. Cependant, de nombreux exemples existent de situations où OpenCalais semble être très adapté. Tagaroo en est un bon exemple, et des utilisations de ce type semblent fleurir sur le net.
A suivre donc...