Installation et configuration de Regain sous Windows

Rédigé par Nicolas Sulek Aucun commentaire
Classé dans : Logiciel Mots clés : Indexation, Windows
Nous allons installer la version Desktop pour Windows.

Installation de Regain


Il faut d'abord installer le Java Developer Kit de JAVA SE, au minimum la version 6.

Il faut ensuite télécharger Regain Desktop Search Installer. On double-clique sur le fichier téléchargé et c'est fini. Il faut refuser le démarrage à la fin de l'installation, car il y a un peu de paramétrage à effectuer avant de l'utiliser, et accessoirement, on est connecté en Administrateur ce qui n'est pas terrible niveau sécurité...

Il va falloir maintenant modifier certains fichiers XML avant de pouvoir utiliser Regain. Toute la configuration de Regain se trouve dans C:\Program Files\Regain\conf.

Configuration de Regain


CrawlerConfiguration.xml


Ce fichier configure l'indexation des documents avec notamment les chemins ou sites à indexer, les mots à ne pas indexer, les preparators à utiliser.

Suppression des exemples de la liste blanche


Modifier :
<whitelist>
<prefix name="file">file://</prefix>
<prefix>http://www.mydomain.de</prefix>
<prefix>imaps://imap.googlemail.com</prefix>
</whitelist>

en
<whitelist>
</whitelist>

afin de supprimer les exemples de liste blanche de sites ou répertoire à indexer.

Activation de l'analyseur français


Modifier
<analyzerType>german</analyzerType>

en
<analyzerType>french</analyzerType>

pour utiliser l'analyseur pour la langue française.

Modifier
  <stopwordList>
einer eine eines einem einen der die das dass daß du er sie es was wer wie
wir und oder ohne mit am im in aus auf ist sein war wird ihr ihre ihres als
für von mit dich dir mich mir mein sein kein durch wegen wird
</stopwordList>

en
<!--
<stopwordList>
einer eine eines einem einen der die das dass daß du er sie es was wer wie
wir und oder ohne mit am im in aus auf ist sein war wird ihr ihre ihres als
für von mit dich dir mich mir mein sein kein durch wegen wird
</stopwordList>
-->

pour désactiver les mots à ne pas indexer en langue allemande

Modifier :
<!-- french:
<stopwordList>
alors au aucuns aussi autre avant avec avoir bon car ce cela ces ceux chaque ci comme comment
dans des du dedans dehors depuis deux devrait doit donc dos droite début elle elles en encore essai est et eu
fait faites fois font force haut hors ici il ils je juste la le les leur là ma maintenant mais mes mine moins
mon mot même ni nommés notre nous nouveaux ou où par parce parole pas personnes peut peu pièce plupart
pour pourquoi quand que quel quelle quelles quels qui sa sans ses seulement si sien son sont sous soyez sujet
sur ta tandis tellement tels tes ton tous tout trop très tu valeur voie voient vont votre vous vu ça étaient
état étions été être
</stopwordList>
-->

en
  <stopwordList>
alors au aucuns aussi autre avant avec avoir bon car ce cela ces ceux chaque ci comme comment
dans des du dedans dehors depuis deux devrait doit donc dos droite début elle elles en encore essai est et eu
fait faites fois font force haut hors ici il ils je juste la le les leur là ma maintenant mais mes mine moins
mon mot même ni nommés notre nous nouveaux ou où par parce parole pas personnes peut peu pièce plupart
pour pourquoi quand que quel quelle quelles quels qui sa sans ses seulement si sien son sont sous soyez sujet
sur ta tandis tellement tels tes ton tous tout trop très tu valeur voie voient vont votre vous vu ça étaient
état étions été être
</stopwordList>

pour activer les mots à ne pas indexer dans la langue française.

Utilisation de Microsoft Office pour l'indexation


Si Microsoft Office est installé sur le même poste que Regain, il est conseillé de l'utiliser plutôt que d'utiliser les preparators génériques de Regain, qui peuvent avoir des difficultés avec de vieux documents.

Activation de l'indexation avec Excel


Il faut alors modifier :
   <preparator enabled="false">
<class>.JacobMsExcelPreparator</class>
</preparator>

en
   <preparator enabled="true">
<class>.JacobMsExcelPreparator</class>
</preparator>

pour activer l'indexation avec Excel

Activation de l'indexation avec Word


 <preparator enabled="false">
<class>.JacobMsWordPreparator</class>
</preparator>

en
 <preparator enabled="true">
<class>.JacobMsWordPreparator</class>
</preparator>

pour activer l'indexation avec Word

Activation de l'indexation avec PowerPoint


   <preparator enabled="false">
<class>.JacobMsPowerPointPreparator</class>
</preparator>

en
   <preparator enabled="true">
<class>.JacobMsPowerPointPreparator</class>
</preparator>

pour activer l'indexation avec PowerPoint.

DesktopConfiguration.xml


Ce fichier gère la fréquence d'indexation et la possibilité d'accéder à distance à Regain.

Changement de fréquence d'indexation


Par défaut, Regain va lancer une mise à jour de son index toutes les 1440 minutes, soit toutes les 24h.

Pour changer cette valeur, il suffit de modifier
<interval>1440</interval>

en
<interval>60</interval>

si on désire une indexation toutes les heures.

Accès externes


Regain autorise les accès depuis d'autres postes, ce qui n'est pas vraiment l'idéal niveau sécurité. Pour modifier ce comportement, il faut modifier :
<allow_external_access>true</allow_external_access>

en
<allow_external_access>false</allow_external_access>

SearchConfiguration.xml


Ce fichier configure la recherche au travers de l'interface Web de Regain.

Afficher plus de critères de tri


Par défaut, Regain ne propose de classer les résultats que par pertinence (Relevanz, Regain étant développé par un allemand). il est toutefois possible d'afficher plus de critères.

Modifier :
<sortResults showsortfieldcontent="false">
<sortEntry id='1' description='Relevanz' order='desc' field='relevance' />
<!--sortEntry id='2' description='Dokumentendatum aufsteigend' order='asc' field='last-modified' />
<sortEntry id='3' description='Dokumentendatum absteigend' order='desc' field='last-modified' />
<sortEntry id='4' description='Dokumentengröße aufsteigend' order='asc' field='size' />
<sortEntry id='5' description='Dokumentengröße absteigend' order='desc' field='size' />
<sortEntry id='6' description='Dateiname aufsteigend' order='asc' field='filename_sort' />
<sortEntry id='7' description='Dateiname absteigend' order='desc' field='filename_sort' />
<sortEntry id='8' description='Mimetype aufsteigend' order='asc' field='mimetype' />
<sortEntry id='9' description='Mimetype absteigend' order='desc' field='mimetype' />
<sortEntry id='10' description='Titel aufsteigend' order='asc' field='title_sort' />
<sortEntry id='11' description='Titel absteigend' order='desc' field='title_sort' />
<sortEntry id='12' description='Pfad aufsteigend' order='asc' field='path_sort' />
<sortEntry id='13' description='Pfad absteigend' order='desc' field='path_sort' /-->
</sortResults>

en
<!--sortResults showsortfieldcontent="false">
        <sortEntry id='1' description='Relevanz' order='desc' field='relevance' />
        <sortEntry id='2' description='Dokumentendatum aufsteigend' order='asc' field='last-modified' />
        <sortEntry id='3' description='Dokumentendatum absteigend' order='desc' field='last-modified' />
        <sortEntry id='4' description='Dokumentengröße aufsteigend' order='asc' field='size' />
        <sortEntry id='5' description='Dokumentengröße absteigend' order='desc' field='size' />
        <sortEntry id='6' description='Dateiname aufsteigend' order='asc' field='filename_sort' />
        <sortEntry id='7' description='Dateiname absteigend' order='desc' field='filename_sort' />
        <sortEntry id='8' description='Mimetype aufsteigend' order='asc' field='mimetype' />
        <sortEntry id='9' description='Mimetype absteigend' order='desc' field='mimetype' />
        <sortEntry id='10' description='Titel aufsteigend' order='asc' field='title_sort' />
        <sortEntry id='11' description='Titel absteigend' order='desc' field='title_sort' />
        <sortEntry id='12' description='Pfad aufsteigend' order='asc' field='path_sort' />
        <sortEntry id='13' description='Pfad absteigend' order='desc' field='path_sort' /
      </sortResults-->

pour désactiver l'interface allemande, et rajouter immédiatement en dessous :
<sortResults showsortfieldcontent="false">
<sortEntry id='1' description='Pertinence décroissante' order='desc' field='relevance' />
<sortEntry id='2' description='Date de dernière modification croissante' order='asc' field='last-modified' />
<sortEntry id='3' description='Date de dernière modification décroissante' order='desc' field='last-modified' />
<sortEntry id='4' description='Taille du document croissante' order='asc' field='size' />
<sortEntry id='5' description='Taille du document décroissante' order='desc' field='size' />
<sortEntry id='6' description='Nom de fichier croissant' order='asc' field='filename_sort' />
<sortEntry id='7' description='Nom de fichier décroissant' order='desc' field='filename_sort' />
<sortEntry id='8' description='Type MIME croissant' order='asc' field='mimetype' />
<sortEntry id='9' description='Type MIME décroissant' order='desc' field='mimetype' />
<sortEntry id='10' description='Titre croissant' order='asc' field='title_sort' />
<sortEntry id='11' description='titre décroissant' order='desc' field='title_sort' />
<sortEntry id='12' description='Chemin croissant' order='asc' field='path_sort' />
<sortEntry id='13' description='Chemin décroissant' order='desc' field='path_sort' />
</sortResults>

pour afficher plus de critères en français.

Supprimer la recherche dans un deuxième index


Dans sa configuration standard, Regain va chercher dans deux index, le premier est celui créé après l'ajout des sites et répertoires à indexer, le deuxième est uniquement indiqué à titre d'exemple.
Pour supprimer le deuxième, il faut modifier
 <!-- The search index 'main' -->
<index name="main" default="true" isparent="true">
<!-- The directory where the index is located -->
<dir>searchindex</dir>
</index>
<!--
| A child index of 'main'
+-->
<!--
<index name="main1" default="true" isparent="false" parent="main">
<dir>searchindex_1</dir>
</index>
-->

<!-- The search index 'example' -->
<index name="example">
<!-- The directory where the index is located -->
<dir>c:\Temp\searchindex_example</dir>

<rewriteRules>
<rule prefix="file://c:/example/www-data" replacement="http://www.mydomain.de"/>
</rewriteRules>
</index>

en
 <!-- The search index 'main' -->
<index name="main" default="true" isparent="true">
<!-- The directory where the index is located -->
<dir>searchindex</dir>
</index>
<!--
| A child index of 'main'
+-->
<!--
<index name="main1" default="true" isparent="false" parent="main">
<dir>searchindex_1</dir>
</index>

La configuration des fichiers XML est terminée.

Rajout des répertoires et sites à indexer


Maintenant que les fichiers XML ont été modifié et adaptés à notre belle langue, on peut enfin lancer Regain.

Un petit R bleu va apparaître dans la zone de notifications ou systray. Il suffit alors de cliquer dessus pour afficher le navigateur Web par défaut.

Premier démarrage de Regain

Dans cet écran, Regain indique qu'avant toute recherche, il faut créer un index en allant dans les préférences. On va donc cliquer ensuite sur Preferences pour rajouter les répertoires et sites à indexer.

Préférences Regain vide

Rajoutons le répertoire de l'utilisateur nsulek.

Pour cela, Regain n'est pas très ergonomique, il faut d'abord ouvrir un explorateur de fichiers, se déplacer dans l'arborescence et ensuite copier le chemin complet (C:\Documents and Settings\nsulek) dans la barre d'adresse et le coller dans Regain.

Préférences Regain collage du répertoireIl n'y a plus qu'à appuyer sur Add.

Préférences Regain répertoire ajoutéet à cliquer tout en bas sur Save preferences pour valider et lancer l'indexation.

Une fois l'indexation achevée, ce qui peut-être relativement long, les recherches seront actives.

Les commentaires sont fermés.