Skip to content
GitLab
Explore
Sign in
Primary navigation
Search or go to…
Project
N
NCD data aggregation and classification
Manage
Activity
Members
Labels
Plan
Issues
Issue boards
Milestones
Wiki
Code
Merge requests
Repository
Branches
Commits
Tags
Repository graph
Compare revisions
Snippets
Build
Pipelines
Jobs
Pipeline schedules
Artifacts
Deploy
Releases
Package registry
Model registry
Operate
Environments
Terraform modules
Monitor
Incidents
Analyze
Value stream analytics
Contributor analytics
CI/CD analytics
Repository analytics
Model experiments
Help
Help
Support
GitLab documentation
Compare GitLab plans
Community forum
Contribute to GitLab
Provide feedback
Keyboard shortcuts
?
Snippets
Groups
Projects
Show more breadcrumbs
flg_bachelors
TS
2024
NCD data aggregation and classification
Commits
0f2584a8
Commit
0f2584a8
authored
1 month ago
by
Ivan Pavlovich
Browse files
Options
Downloads
Patches
Plain Diff
Ajout de la structure de la doc et des idéés a expliquer
parent
6e78bebe
No related branches found
No related tags found
No related merge requests found
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
memoire/idee.md
+26
-0
26 additions, 0 deletions
memoire/idee.md
memoire/structure.md
+119
-0
119 additions, 0 deletions
memoire/structure.md
with
145 additions
and
0 deletions
memoire/idee.md
0 → 100644
+
26
−
0
View file @
0f2584a8
# PubMed
-
Expliquer ce que PubMed est.
-
Expliquer le contenue de Pubmed (type d'article, répartition des sources, etc)
-
Expliquer le contenue des articles
-
Expliquer ce qu'un MeSH Term
-
Expliquer comment la recherche d'articles fonctionne (le term, les fields, l'ATM, les opérateurs, ...)
-
Expliquer la structure de l'API Pubmed (ESearch, EFetch)
-
Expliquer les restriction de l'API (10000 articles, nombre de requette par seconde, ...)
-
Expliquer les testes effectuer sur le nombre d'articles posté en moyenne sur PubMed
# Modèles
-
Expliquer ce qu'un Zero-Shot classifier
-
Expliquer la différence entre un Few-Shot et un Zero-Shot classifier
-
Expliquer ce qu'est HuggingFace et ses transformeur / pipline
-
Expliquer ce qu'une LLM
-
Expliquer ce qu'une LLM hostée
-
Expliquer les problèmes des LLM
-
Expliquer ce qu'est Ollama
-
Expliquer les problèmes des modèles locaux
# Tests
-
Expliquer pourquoi un système de teste de modèle a du être développer
-
Expliquer ce qui a été teste (efficassité des modèles, efficassité des modèles en fonction de la longeure du texte a classifier, ...)
-
Expliquer comment le dataset a été créé
-
Expliquer les mesures utiliser pour calculer l'efficassité d'un modèle (confusion matrix, recall, TNR, precision et F1 Score)
-
Parler des résultats obtenue
This diff is collapsed.
Click to expand it.
memoire/structure.md
0 → 100644
+
119
−
0
View file @
0f2584a8
# Source de Données PubMed
-
Définition et rôle de PubMed
-
Répartition des sources d'articles
## Contenu des articles
-
Structure et contenue des articles
### MeSH Terms
-
Définition
-
Origine et fonctionnement des MeSH Terms
## Recherche et fonctionnement de l'API
-
Présentation générale de l’API (E-Utilities)
-
Structure et fonctionnement de l’API
### Recherche d’articles
-
Mécanisme de recherche
-
Définition et utilisation des "fields"
-
Opérateurs booléens et syntaxe
### ATM
-
Définition
-
Explication du fonctionnement
### Restrictions et limitations
-
Limitations d’accès et quotas
-
Contraintes sur le nombre d’articles récupérables
## Études statistiques
-
Analyse du volume d’articles publiés
-
Objectifs de l’étude
# Classification des contenus
-
Objectif et importance de cette partie
-
Problématiques et enjeux de la classification
## Zero-Shot Classification
-
Définition et principe
### Hugging Face et Transformers
-
Présentation de Hugging Face
-
Explication des Transformers / Pipelines
### Choix des Modèles
-
Méthodologie de sélection des modèles
-
Justification du modèle retenu
## Few-Shot Classification
-
Définition et principe
-
Différences avec le Zero-Shot Classification
## Large Language Models (LLM)
-
Définition et rôle des LLM
### Modèles hébergés
-
Définition et fonctionnement
-
Contraintes et limitations
### Modèles locaux
-
Définition et fonctionnement
-
Contraintes et défis techniques
-
Présentation d’Ollama
### Problèmes liés aux LLM
-
Limitations et biais des modèles
-
Contraintes éthiques et techniques
# Système de tests et validation des modèles
-
Raison du développement du système de tests et validation
-
Objectifs et enjeux des tests
## Critères de validation et méthodologie
-
Évaluation de l’efficacité des modèles en général
-
Impact de la longueur des textes sur l’efficacité des modèles
-
Processus de création du dataset de test
## Mesure d'évaluation
-
Définition et importance des métriques utilisées
### Matrice de confusion
-
Définition
-
Méthode de construction et interprétation
### Recall, Précision, Spécificité
-
Définition et rôle
-
Méthode de calcul
### F1 Score
-
Définition et rôle
-
Méthode de calcul
## Résultats et analyses
-
Présentation des résultats obtenus
-
Analyse et interprétation des performances
\ No newline at end of file
This diff is collapsed.
Click to expand it.
Preview
0%
Loading
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment