Recherche utilisant ce type de requête :



Recherche seulement sur ces types d'enregistrements :

Contenu
Fichier

Recherche avancée (contenus seulement)

La base de données HDTCOL

La base de données Omeka HDTCOL



Le projet HDTCOL bénéficie d'une base de données en ligne afin de mettre à la disposition des documents ayant trait à l'histoire et au droit du travail dans les diverses colonies françaises. A destination, dans un premier temps, des chercheurs habilités et propriétaires d'un compte, elle sera par la suite ouverte à un public plus large en fonction des droits de diffusion des archives et de l'avancée du projet.

I- Traitement des documents

Origine des sources

Le plus souvent inédits, ces documents ont été collectés par les membres du projet au gré de leur recherche dans des centres d'archives, des bibliothèques ou sur internet pour certains textes déjà numérisés. Plusieurs campagnes photographiques ont été menées par Jean-Pierre Le Crom aux Archives nationales d'Outre-mer (ANOM) situées à Aix-en-Provence. Quand cela a été possible, certains documents ont été directement numérisés à partir des originaux ou de copies sur les scanners (à plat ou Copibook) de la plate-forme HUMANUM-Loire hébergée par la MSH Ange Guépin de Nantes. Ils ont par la suite été traités (récolement, amélioration de la qualité, océrisation) par le personnel de cette même structure.

Une des particularités de la base de données est de ne pas contenir d'ouvrages ou de fonds d'archives dans leur intégralité. Il n'y a ici que des extraits sélectionnés par les chercheurs car traitant spécifiquement de leur thématique de recherche. Cette problématique a des répercussions quant à l'organisation même de la base et à son exhaustivité future : faut-il l'élargir au maximum de documents ? Rester partiel et donc partial ? Doit-on traiter sur le même plan un fonds d'archives et des documents imprimés de type revue ou bulletin ? Face à ces questions, la présente base est donc vouée à évoluer en fonction des différentes orientations qui seront choisies.

Traitement des images

La qualité de l'océrisation est intrinsèquement liée à celle des images composant le document. L'étape de traitement des photographies est donc particulièrement importante et souvent longue. Au minimum, un travail sur la luminosité et le contraste a été effectué. Il s'accompagne souvent d'un recadrage voir d'une transformation afin de réduire la courbure liée à la forme de l'ouvrage ou à la prise de vue. Dans la mesure du possible, les images floues ont été refaites lors d'une deuxième campagne photographique. Quand cela n'a pas pu être le cas (manque de temps ou de moyens), les images ont été insérées et une note concernant leur état a été ajoutée dans le champ « description » du Dublin Core.

Certains documents originaux, notamment en ce qui concerne les archives, sont de faible qualité : les papiers trop fins (type papier carbone) laissent apparaître le texte des pages suivantes, l'encre utilisée a vieilli et est devenue illisible, etc.

Il a été choisi d'effectuer un traitement assez important sur les images afin de faciliter par la suite l'océrisation. L'objectif n'était pas de tendre vers une numérisation patrimoniale comme c'est le cas du site Gallica mais bien de rendre plus facilement lisible et exploitable le document par le chercheur. De fait, certains documents ont été basculés en mode noir et blanc et largement re-travaillés. La difficulté de ce travail consistait à savoir jusqu'où aller dans le traitement de l'image sans altérer l'intégrité du contenu.

 

Océrisation

Tous les documents imprimés, à l'exception des documents présentant une qualité trop faible, ont été soumis à la reconnaissance optique des caractères (OCR) afin de permettre le passage d'un mode image à un mode texte rendant possible par la suite la recherche plein texte.     Pour cette étape, le logiciel Abbyy Fine Reader a été utilisé. L'état actuel des technologies ne permet pas de reconnaissance automatique des écritures manuscrites même si certains projets de recherche y travaillent. Pour certains textes particulièrement intéressants, la transcription manuelle pourra être envisagée.

Tous les textes océrisés sont vérifiés et corrigés « manuellement ». En raison de la qualité des documents, il se peut que certaines erreurs ne soient pas traitées (oubli des accents, fautes typographiques, etc.). L'OCR n'est donc pas parfait. De même, pour certaines pages floues, le texte n'a pas pu être récupéré. Dans ce cas, seule l'image est disponible.

Dans le cas de fautes présentes dans le document original, il a été décidé de ne pas les corriger dans l'OCR afin de rester au plus près du texte source. De même, les ajouts manuscrits dans les marges ont été insérés entre crochets [ ] afin de ne pas les confondre totalement avec le texte imprimé.

 

II- Développement de la base de données

La base de données a été développée à partir du logiciel libre OMEKA. Créé par le Center for History and New Media (CHNM, George Mason University, États-Unis), il présente une certaine malléabilité dans sa construction permettant ainsi de s'adapter aux différents besoins des chercheurs tout en respectant les principes de l'Open Access (schéma de description des métadonnées en Dublin Core, compatibilité avec le protocole OAI-PMH et le logiciel de gestion des données bibliographiques Zotéro, etc...).

Par souci de clarté, les documents ont été organisés en collections. Celles-ci correspondent actuellement aux sources des documents (Archives nationales d'Outre-mer, Bulletins officiels, etc.). Chaque document est décrit par une fiche contenant des métadonnées.

Métadonnées Dublin Core

Les métadonnées sont présentées selon le schéma Dublin Core (DC). Celui-ci propose quinze éléments, tous facultatifs et tous répétables, pour décrire le document :

  • contenu : Titre, Sujet, Description, Source, Langue, Relation, Couverture ;

  • propriété intellectuelle : Créateur, Contributeur, Éditeur, Droits ;

  • instanciation : Date, Type, Format, Identifiant.

Ce socle commun de description permet d'instaurer une première interopérabilité avec les autres sites l'utilisant et facilite le signalement et l'accès aux ressources de la base de données.

Il est également possible de compléter ces quinze champs par ceux du Dublin Core dit étendu ou qualifié. La dizaine de champs supplémentaires n'a pour l'instant pas été ajoutée aux documents car elle ne présentait qu'un intérêt relatif pour le projet.

Si aucun des champs descriptifs n'est obligatoire, il n'en demeure pas moins que plus un document est décrit plus il est visible et donc accessible par le chercheur.

 

Les tags

Pour compléter les métadonnées Dublin Core, des mots-clefs ou tags ont été ajoutés. La liste de ceux qui sont utilisés est disponible dans l'onglet «nuage de mots-clefs ». Elle correspond pour l'essentiel au champ « sujet » du Dublin Core. Ce dernier a été mis au point par les chercheurs en fonction de leurs besoins et est facilement modifiable ou augmentable. Ce vocabulaire contrôlé, pensé dès la création de la base, permet d'éviter doublons et synonymes afin d'obtenir une recherche fiable.

 

Le moteur de recherche

L'utilisateur peut effectuer des recherches simples ou avancées afin d'accéder à des documents sélectionnés par une équipe de spécialistes en raison de leur intérêt fondamental pour la thématique du projet.

L'onglet « recherche avancée » permet d'accéder à un formulaire proposant une critérisation multiple en fonction de la date, de l'auteur, de la source, etc. Tous les critères sont multipliables et peuvent s'additionner à d'autres. La recherche s' effectue à la fois en fonction des métadonnées indiquées sur chaque fiche descriptive d'un document mais également dans le contenu même de celui-ci via le mode plein texte rendu possible par le travail d'océrisation.

Il est également envisageable d'effectuer une recherche via les métadonnées cliquables (date, auteur, etc.), le nuage de mots-clefs ou directement par les collections.

Les services mis à disposition

Deux modes de visualisation sont proposés pour chaque document :

  • un lecteur PDF accessible directement sur la fiche ou en cliquant sur l'onglet PDF

  • une visionneuse grâce au Plug-in BookReader permettant notamment un mode « feuilletage »

Ces deux possibilités incluent la recherche plein texte.

Le logiciel Omeka propose également un système d'exposition afin de mettre en valeur une thématique ou de commencer un travail d'éditorialisation en réunissant les documents présents sur la base qui intéressent le chercheur. Il sera développé lors de la deuxième partie du projet.

 

Les formats de sortie

Deux formats de sortie des résultats de la recherche ou du document qui vous intéressent sont disponibles: RDF et JSON. Ils sont accessibles en cliquant directement sur le logo apparaissant en haut de la liste des résultats de la requête ou sur la fiche descriptive d'un document.

Il est également possible de syndiquer les contenus via les formats ATOM et RSS2. Vous pouvez ainsi être tenus au courant de chaque actualité de la collection qui vous intéresse en cliquant sur « s'abonner à ce flux ». Votre agrégateur de flux vous indiquera alors les mises à jour des contenus de la page qui vous intéresse.

Les créateurs du logiciel Omeka utilisé pour mettre en place cette base de données sont également à l'origine de Zotero, logiciel de gestion des références  bibliographiques. Vous avez donc la possibilité d'exporter très facilement les contenus qui vous intéressent dans votre Zotéro. Il suffit de cliquer sur l'icône située à droite de la barre d'adresse. Vous n'avez plus qu'à cocher/décocher les contenus que vous souhaitez conserver. Cette action est possible à tous les niveaux : que vous soyez sur une collection, sur la fiche descriptive d'un document ou lors d'une recherche avancée.

La base de données permet en outre de partager très facilement par mail ou sur les réseaux sociaux les documents trouvés en cliquant sur les différents logos (Twitter, Facebook, Google+, etc.).

La base de données dispose également d'un entrepôt OAI. Les données, décrites en Dublin Core, sont moissonnables selon le protocole OAI-PMH. Les documents de la base pourront donc être facilement référencés sur d'autres sites et vice-versa.

 

Les contributions

Les membres du projet ont la possibilité de contribuer à la base de données par l'apport de documents (archives, articles, etc.) accompagnés de leurs métadonnées descriptives. Pour ce faire, plusieurs moyens sont à disposition :

  • [prochainement] dépôt des documents directement sur le site via l'onglet « contribution ». Les formulaires de dépôt sont en cours de développement;
  • dépôt sur la plateforme FengOffice, accessible via l'onglet présent dans le menu de la base de données;
  • dépôt dans la partie « administration d'Omeka »;
  • envoi par mail aux gestionnaires de la base.