Regain, indexation libre et gratuite sous Windows et Linux

Rédigé par Nicolas Sulek Aucun commentaire
Classé dans : Logiciel Mots clés : Indexation, Windows
Voici un logiciel qui facilite grandement la vie quand on effectue des recherches sur de grands volumes de documents : Regain.

Regain est une sorte de Google, à part qu'il ne va pas chercher sur le Web, mais dans les documents stockés sur le poste de travail, des partages réseaux, des sites Web, ...

Regain va ainsi parcourir les différents répertoires ou sites Web à indexer, extraire l'ensemble des textes, et les stocker dans une base de données avec un index intelligent.

Un peu de technique


C'est un logiciel en Java, proposé en deux versions, une version tout en un appelé Desktop utilisable directement sous Windows, Linux, Mac OS, en fait toute plate-forme ayant un environnement Java, et une version serveur pouvant s'installer sur un serveur supportant les JSP (comme Apache Tomcat par exemple).

Regain est basé sur la bibliothèque Lucene, et est en Java à 100%, sauf pour les plugins indexant les documents Excel, Word et PowerPoint, mais il existe des alternatives en Java.

Principes de fonctionnement


Création de l'index


Regain va parcourir les sites Web indiqués ou un répertoire à la recherche de documents. C'est la partie Crawler. Tout ce qui sera cherché peut-être paramétré (chemins, types de documents, ...).

Pour chaque document, le texte va être extrait en utilisant un programme appelé preparator. Les preparators sont des programmes capables d'interpréter et de lire le format du document. Le texte extrait est ensuite ajouté à l'index de recherche.

Recherche dans l'index de recherche


Une fois que l'index de recherche a été créé, il est possible d'effectuer des recherches. La recherche sera très rapide, de l'ordre de la seconde, car le temps passée dans une recherche plein texte est maintenant passé dans la création de l'index.

L'interface de recherche se fait au travers d'un navigateur Web, comme avec Google. il est possible d'utiliser des expressions régulières, de classer les résultats suivants différents critères (pertinence, date de modification, taille du fichier, ...).

Les commentaires sont fermés.