From 0f2584a882d60f2da941cb2568390ecd349c2284 Mon Sep 17 00:00:00 2001 From: Ivan Pavlovich <ivan.pavlovic@hes-so.ch> Date: Wed, 19 Mar 2025 09:58:48 +0100 Subject: [PATCH] =?UTF-8?q?Ajout=20de=20la=20structure=20de=20la=20doc=20e?= =?UTF-8?q?t=20des=20id=C3=A9=C3=A9s=20a=20expliquer?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- memoire/idee.md | 26 ++++++++++ memoire/structure.md | 119 +++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 145 insertions(+) create mode 100644 memoire/idee.md create mode 100644 memoire/structure.md diff --git a/memoire/idee.md b/memoire/idee.md new file mode 100644 index 000000000..004b4f915 --- /dev/null +++ b/memoire/idee.md @@ -0,0 +1,26 @@ +# PubMed +- Expliquer ce que PubMed est. +- Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc) +- Expliquer le contenue des articles +- Expliquer ce qu'un MeSH Term +- Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...) +- Expliquer la structure de l'API Pubmed (ESearch, EFetch) +- Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...) +- Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed + +# Modèles +- Expliquer ce qu'un Zero-Shot classifier +- Expliquer la différence entre un Few-Shot et un Zero-Shot classifier +- Expliquer ce qu'est HuggingFace et ses transformeur / pipline +- Expliquer ce qu'une LLM +- Expliquer ce qu'une LLM hostée +- Expliquer les problèmes des LLM +- Expliquer ce qu'est Ollama +- Expliquer les problèmes des modèles locaux + +# Tests +- Expliquer pourquoi un système de teste de modèle a du être développer +- Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...) +- Expliquer comment le dataset a été créé +- Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score) +- Parler des résultats obtenue diff --git a/memoire/structure.md b/memoire/structure.md new file mode 100644 index 000000000..8fc6a61ab --- /dev/null +++ b/memoire/structure.md @@ -0,0 +1,119 @@ +# Source de Données PubMed + +- Définition et rôle de PubMed +- Répartition des sources d'articles + +## Contenu des articles + +- Structure et contenue des articles + +### MeSH Terms + +- Définition +- Origine et fonctionnement des MeSH Terms + +## Recherche et fonctionnement de l'API + +- Présentation générale de l’API (E-Utilities) +- Structure et fonctionnement de l’API + +### Recherche d’articles + +- Mécanisme de recherche +- Définition et utilisation des "fields" +- Opérateurs booléens et syntaxe + +### ATM + +- Définition +- Explication du fonctionnement + +### Restrictions et limitations + +- Limitations d’accès et quotas +- Contraintes sur le nombre d’articles récupérables + +## Études statistiques + +- Analyse du volume d’articles publiés +- Objectifs de l’étude + +# Classification des contenus + +- Objectif et importance de cette partie +- Problématiques et enjeux de la classification + +## Zero-Shot Classification + +- Définition et principe + +### Hugging Face et Transformers + +- Présentation de Hugging Face +- Explication des Transformers / Pipelines + +### Choix des Modèles + +- Méthodologie de sélection des modèles +- Justification du modèle retenu + +## Few-Shot Classification + +- Définition et principe +- Différences avec le Zero-Shot Classification + +## Large Language Models (LLM) + +- Définition et rôle des LLM + +### Modèles hébergés + +- Définition et fonctionnement +- Contraintes et limitations + +### Modèles locaux + +- Définition et fonctionnement +- Contraintes et défis techniques +- Présentation d’Ollama + +### Problèmes liés aux LLM + +- Limitations et biais des modèles +- Contraintes éthiques et techniques + + +# Système de tests et validation des modèles + +- Raison du développement du système de tests et validation +- Objectifs et enjeux des tests + +## Critères de validation et méthodologie + +- Évaluation de l’efficacité des modèles en général +- Impact de la longueur des textes sur l’efficacité des modèles +- Processus de création du dataset de test + +## Mesure d'évaluation + +- Définition et importance des métriques utilisées + +### Matrice de confusion + +- Définition +- Méthode de construction et interprétation + +### Recall, Précision, Spécificité + +- Définition et rôle +- Méthode de calcul + +### F1 Score + +- Définition et rôle +- Méthode de calcul + +## Résultats et analyses + +- Présentation des résultats obtenus +- Analyse et interprétation des performances \ No newline at end of file -- GitLab