diff --git a/memoire/idee.md b/memoire/idee.md new file mode 100644 index 0000000000000000000000000000000000000000..004b4f9158f2e51d44ded2b10c0464b2f47b9780 --- /dev/null +++ b/memoire/idee.md @@ -0,0 +1,26 @@ +# PubMed +- Expliquer ce que PubMed est. +- Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc) +- Expliquer le contenue des articles +- Expliquer ce qu'un MeSH Term +- Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...) +- Expliquer la structure de l'API Pubmed (ESearch, EFetch) +- Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...) +- Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed + +# Modèles +- Expliquer ce qu'un Zero-Shot classifier +- Expliquer la différence entre un Few-Shot et un Zero-Shot classifier +- Expliquer ce qu'est HuggingFace et ses transformeur / pipline +- Expliquer ce qu'une LLM +- Expliquer ce qu'une LLM hostée +- Expliquer les problèmes des LLM +- Expliquer ce qu'est Ollama +- Expliquer les problèmes des modèles locaux + +# Tests +- Expliquer pourquoi un système de teste de modèle a du être développer +- Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...) +- Expliquer comment le dataset a été créé +- Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score) +- Parler des résultats obtenue diff --git a/memoire/structure.md b/memoire/structure.md new file mode 100644 index 0000000000000000000000000000000000000000..8fc6a61ab7ba25d0b20c346735f62c5e6db50d9d --- /dev/null +++ b/memoire/structure.md @@ -0,0 +1,119 @@ +# Source de Données PubMed + +- Définition et rôle de PubMed +- Répartition des sources d'articles + +## Contenu des articles + +- Structure et contenue des articles + +### MeSH Terms + +- Définition +- Origine et fonctionnement des MeSH Terms + +## Recherche et fonctionnement de l'API + +- Présentation générale de l’API (E-Utilities) +- Structure et fonctionnement de l’API + +### Recherche d’articles + +- Mécanisme de recherche +- Définition et utilisation des "fields" +- Opérateurs booléens et syntaxe + +### ATM + +- Définition +- Explication du fonctionnement + +### Restrictions et limitations + +- Limitations d’accès et quotas +- Contraintes sur le nombre d’articles récupérables + +## Études statistiques + +- Analyse du volume d’articles publiés +- Objectifs de l’étude + +# Classification des contenus + +- Objectif et importance de cette partie +- Problématiques et enjeux de la classification + +## Zero-Shot Classification + +- Définition et principe + +### Hugging Face et Transformers + +- Présentation de Hugging Face +- Explication des Transformers / Pipelines + +### Choix des Modèles + +- Méthodologie de sélection des modèles +- Justification du modèle retenu + +## Few-Shot Classification + +- Définition et principe +- Différences avec le Zero-Shot Classification + +## Large Language Models (LLM) + +- Définition et rôle des LLM + +### Modèles hébergés + +- Définition et fonctionnement +- Contraintes et limitations + +### Modèles locaux + +- Définition et fonctionnement +- Contraintes et défis techniques +- Présentation d’Ollama + +### Problèmes liés aux LLM + +- Limitations et biais des modèles +- Contraintes éthiques et techniques + + +# Système de tests et validation des modèles + +- Raison du développement du système de tests et validation +- Objectifs et enjeux des tests + +## Critères de validation et méthodologie + +- Évaluation de l’efficacité des modèles en général +- Impact de la longueur des textes sur l’efficacité des modèles +- Processus de création du dataset de test + +## Mesure d'évaluation + +- Définition et importance des métriques utilisées + +### Matrice de confusion + +- Définition +- Méthode de construction et interprétation + +### Recall, Précision, Spécificité + +- Définition et rôle +- Méthode de calcul + +### F1 Score + +- Définition et rôle +- Méthode de calcul + +## Résultats et analyses + +- Présentation des résultats obtenus +- Analyse et interprétation des performances \ No newline at end of file