Skip to content
Snippets Groups Projects
Commit 2bd801bf authored by aliya.myaz's avatar aliya.myaz
Browse files

fixed rare spelling errors

parent c9604fa7
Branches
No related tags found
No related merge requests found
Pipeline #32480 failed
......@@ -77,7 +77,7 @@ tenter d'étudier l'effet du _learning rate_ $\lambda$ sur cet algorithme et les
raisons pour lesquelles sa valeur devra diverger par rapport aux trois autres
méthodes.
En suite, nous tenterons de jouer avec les deux paramètres specifiques à
En suite, nous tenterons de jouer avec les deux paramètres spécifiques à
**Adam**, $\beta_{1}$ et $\beta_{2}$, afin d'essayer de visualiser la manière
dont ces deux paramètres permettent de rendre le _learning rate_ dynamique
(c'est-à-dire l'ajuster en fonction des asymétries possiblement introduites par
......@@ -91,14 +91,14 @@ Les paramètres d'**Adam** permettent aussi d'émuler un comportement d'inertie
présent dans les méthodes **Momentum** et **Nesterov** à l'aide d'un calcul
des moyennes mobiles.
En somme, **Adam** est censé représente le meilleur des deux mondes (taux
En somme, **Adam** est censé représenter le meilleur des deux mondes (taux
d'apprentissage variable par composante et l'inertie qui permet de pouvoir passer
au-delà de certains minimums locaux dans le but d'en trouver un global).
## Effet du taux d'apprentissage $\lambda$ -- descente simple
Pour pouvoir illustrer l'effet du taux d'apprentissage sur le comportement de
la descente, nous avons pris trois valeurs de $\lambda$ séparée à chaque fois
la descente, nous avons pris trois valeurs de $\lambda$, séparées à chaque fois
d'un ordre de grandeur pour rendre la visualisation plus claire. Les exemples
ci-dessous ont été effectués sur la fonction $f$ :
......@@ -128,7 +128,7 @@ Variation de $\lambda$ lors de la descente simple
::::
Dans le cas de la @fig-base-high-lr, nous pouvons voir que suite aux grands pas
effectués à chaque itération, la trajectoire est saccadée même si le minimum
effectués à chaque itération, la trajectoire est saccadée, même si le minimum
est tout de même atteint. Le problème qui peut survenir suite à un $\lambda$ si
grand est le fait de potentiellement passer au-delà d'un fossé qui puisse contenir
le minimum recherché. Ce cas sera illustré plus tard.
......@@ -138,7 +138,7 @@ le minimum recherché. Ce cas sera illustré plus tard.
A travers les exemples présenté sur la @fig-basegd-lr, nous pouvons facilement
se convaincre que le bon choix de la valeur du taux d'apprentissage, comme
beaucoup de choses dans la vie, repose sur un compromis. La valeur de $\lambda$
ne doit pas être à la fois trop petite (sinon le nombre d'itérations deviendra
ne doit à la fois ne pas être trop petite (sinon le nombre d'itérations deviendra
énorme), ni trop grande (risque de rater un minimum, en "sautant" par-dessus).
Dès lors, la valeur du taux d'apprentissage choisie pour les algorithmes de
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment