Regain, indexation libre et gratuite sous Windows et Linux
Rédigé par Nicolas Sulek
Aucun commentaire
Classé dans : Logiciel
Regain est une sorte de Google, à part qu'il ne va pas chercher sur le Web, mais dans les documents stockés sur le poste de travail, des partages réseaux, des sites Web, ...
Regain va ainsi parcourir les différents répertoires ou sites Web à indexer, extraire l'ensemble des textes, et les stocker dans une base de données avec un index intelligent.
Un peu de technique
C'est un logiciel en Java, proposé en deux versions, une version tout en un appelé Desktop utilisable directement sous Windows, Linux, Mac OS, en fait toute plate-forme ayant un environnement Java, et une version serveur pouvant s'installer sur un serveur supportant les JSP (comme Apache Tomcat par exemple).
Regain est basé sur la bibliothèque Lucene, et est en Java à 100%, sauf pour les plugins indexant les documents Excel, Word et PowerPoint, mais il existe des alternatives en Java.
Principes de fonctionnement
Création de l'index
Regain va parcourir les sites Web indiqués ou un répertoire à la recherche de documents. C'est la partie Crawler. Tout ce qui sera cherché peut-être paramétré (chemins, types de documents, ...).
Pour chaque document, le texte va être extrait en utilisant un programme appelé preparator. Les preparators sont des programmes capables d'interpréter et de lire le format du document. Le texte extrait est ensuite ajouté à l'index de recherche.
Recherche dans l'index de recherche
Une fois que l'index de recherche a été créé, il est possible d'effectuer des recherches. La recherche sera très rapide, de l'ordre de la seconde, car le temps passée dans une recherche plein texte est maintenant passé dans la création de l'index.
L'interface de recherche se fait au travers d'un navigateur Web, comme avec Google. il est possible d'utiliser des expressions régulières, de classer les résultats suivants différents critères (pertinence, date de modification, taille du fichier, ...).