(preload) (preload)

Synthèse d'information

Origine des recherches

Actuellement, l'accès à l'information reste un problème critique pour les scientifiques, du fait du volume toujours croissant de publications, de la multiplication des bases de données publiques et du nombre croissant de technologies permettant l'acquisition en masse de données. Un exemple typique pourrait être la technologie des Tissue MicroArrays, de plus en plus utilisée en recherche en oncologie, qui permet le traitement simultané de centaines de micro-échantillons de tissus au sein d'une même lame histologique. Mais ce type de technologie pose un double problème :

En particulier, la seconde problématique d'exploitation des données est une question qui devient classique pour les sciences expérimentales, dans un contexte où la conduite d'une expérience voit son coût en temps et en matériel augmenter, et où la réutilisation des données d'autres équipes ou d'expériences précédentes dans un nouveau cadre devient la norme.

Cette pratique de réutilisation pose pourtant aux chercheurs un gros problème d'appréhension de jeux de données qu'ils maîtrisent souvent mal, parce qu'ils sont le fruit de travaux d'autres équipes, ou ont été acquis en masse, hors du contexte de validation d'une hypothèse scientifique précise par une expérience au cadre expérimental et à la couverture bien définis et surtout soigneusement délimités. Or, cette appréhension du jeu de données considéré est une étape indispensable, préalable à une exploitation plus dirigée des données. En effet, le recours à des outils de fouille de données se doit d'être dirigé, et la définition d'un objectif de fouille nécessite une connaissance préalable minimale de l'espace des données. Dans le même esprit, le jeu de données peut servir de base à la poursuite d'études selon une démarche expérimentale plus classique, par validation d'hypothèse sur un extrait du jeu de données. Il faut alors déterminer si les informations disponibles sont suffisantes à la validation d'une hypothèse. Ceci passe là encore par une appréhension du jeu de données.

Approche et solution proposées

Cette appréhension des données, dans la perspective considérée dans ma thèse, implique la résolution d'un ensemble de problèmes complexes :

Étant donné la complexité de ces problèmes, il apparaît un besoin croissant d'assistance informatique pour aider les chercheurs à les résoudre. La réponse proposée est une notion de synthèse, qui fédère les activités de recherche et extraction d'informations, agrégation, organisation et présentation des données, qui sont sous-jacentes à la problématique d'appréhension des données. Inspirée des principes de Recherche d'information, cette synthèse se base sur un modèle intermédiaire entre Recherche d'Information classique et vision comportementaliste de l'accès à l'information. Ce modèle donne une place centrale à l'objectif de fouille de données ou à l'hypothèse à tester, définissant une Recherche d'Information orientée tâche.

Dans le cadre de ma thèse, le modèle sous-jacent à ce concept de synthèse a permis l'opérationalisation de la synthèse d'information par l'intermédiaire d'un prototype. Le prototype mis en place est validé par des études de cas et une étude utilisateurs et ouvre des perspectives intéressantes d'extension du modèle ou d'extension à d'autres domaines applicatifs.

Le système considéré a été illustré dans le domaine médical, et en particulier dans le domaine de la technologie des Tissue Microarrays. La technologie des Tissue Microarrays (TMA) est une technique récente qui est utilisée fréquemment en recherche en oncologie. Parallèlement à des études moléculaires globales, elle permet une visualisation in situ rapide de cibles moléculaires (séquences d'ADN ou ARN ou protéines) dans des milliers d'échantillons de tissu à la fois.

Liens

Quelques ressources externes autour de ce sujet sont listées ci-dessous :