Skip to content
Snippets Groups Projects
Commit 0f2584a8 authored by Ivan Pavlovich's avatar Ivan Pavlovich
Browse files

Ajout de la structure de la doc et des idéés a expliquer

parent 6e78bebe
No related branches found
No related tags found
No related merge requests found
# PubMed
- Expliquer ce que PubMed est.
- Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc)
- Expliquer le contenue des articles
- Expliquer ce qu'un MeSH Term
- Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...)
- Expliquer la structure de l'API Pubmed (ESearch, EFetch)
- Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...)
- Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed
# Modèles
- Expliquer ce qu'un Zero-Shot classifier
- Expliquer la différence entre un Few-Shot et un Zero-Shot classifier
- Expliquer ce qu'est HuggingFace et ses transformeur / pipline
- Expliquer ce qu'une LLM
- Expliquer ce qu'une LLM hostée
- Expliquer les problèmes des LLM
- Expliquer ce qu'est Ollama
- Expliquer les problèmes des modèles locaux
# Tests
- Expliquer pourquoi un système de teste de modèle a du être développer
- Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...)
- Expliquer comment le dataset a été créé
- Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score)
- Parler des résultats obtenue
# Source de Données PubMed
- Définition et rôle de PubMed
- Répartition des sources d'articles
## Contenu des articles
- Structure et contenue des articles
### MeSH Terms
- Définition
- Origine et fonctionnement des MeSH Terms
## Recherche et fonctionnement de l'API
- Présentation générale de l’API (E-Utilities)
- Structure et fonctionnement de l’API
### Recherche d’articles
- Mécanisme de recherche
- Définition et utilisation des "fields"
- Opérateurs booléens et syntaxe
### ATM
- Définition
- Explication du fonctionnement
### Restrictions et limitations
- Limitations d’accès et quotas
- Contraintes sur le nombre d’articles récupérables
## Études statistiques
- Analyse du volume d’articles publiés
- Objectifs de l’étude
# Classification des contenus
- Objectif et importance de cette partie
- Problématiques et enjeux de la classification
## Zero-Shot Classification
- Définition et principe
### Hugging Face et Transformers
- Présentation de Hugging Face
- Explication des Transformers / Pipelines
### Choix des Modèles
- Méthodologie de sélection des modèles
- Justification du modèle retenu
## Few-Shot Classification
- Définition et principe
- Différences avec le Zero-Shot Classification
## Large Language Models (LLM)
- Définition et rôle des LLM
### Modèles hébergés
- Définition et fonctionnement
- Contraintes et limitations
### Modèles locaux
- Définition et fonctionnement
- Contraintes et défis techniques
- Présentation d’Ollama
### Problèmes liés aux LLM
- Limitations et biais des modèles
- Contraintes éthiques et techniques
# Système de tests et validation des modèles
- Raison du développement du système de tests et validation
- Objectifs et enjeux des tests
## Critères de validation et méthodologie
- Évaluation de l’efficacité des modèles en général
- Impact de la longueur des textes sur l’efficacité des modèles
- Processus de création du dataset de test
## Mesure d'évaluation
- Définition et importance des métriques utilisées
### Matrice de confusion
- Définition
- Méthode de construction et interprétation
### Recall, Précision, Spécificité
- Définition et rôle
- Méthode de calcul
### F1 Score
- Définition et rôle
- Méthode de calcul
## Résultats et analyses
- Présentation des résultats obtenus
- Analyse et interprétation des performances
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment