From 6fb6dc5ccbec1fa5205fc2d93d0518fdec9a02cc Mon Sep 17 00:00:00 2001
From: Orestis Malaspinas <orestis.malaspinas@hesge.ch>
Date: Thu, 10 Sep 2020 14:46:35 +0200
Subject: [PATCH] updated optim chapter

---
 03_optimisation.md | 34 ++++++++++++++++++++++++++++++----
 1 file changed, 30 insertions(+), 4 deletions(-)

diff --git a/03_optimisation.md b/03_optimisation.md
index 9fce76f..f19a34c 100644
--- a/03_optimisation.md
+++ b/03_optimisation.md
@@ -717,7 +717,7 @@ Avec ce qui prÃ©cÃ¨de, voyez-vous une faÃ§on de trouver le minimum de la fonctio
 
 ---
 
-<!-- Une mÃ©thode pour trouver le minimum de $f(x,y)$ est la mÃ©thode de la *descente de gradient*. Cette mÃ©thode
+Une mÃ©thode pour trouver le minimum de $f(x,y)$ est la mÃ©thode de la *descente de gradient*. Cette mÃ©thode
 correspond intuitivement Ã  la mÃ©thode que suivrait un skieur pour arriver le plus vite possible en bas d'une montagne. Pour ce faire, il suivrait toujours la pente
 la plus raide possible.
 
@@ -726,8 +726,8 @@ itÃ©rative. Soient donnÃ©s un point de dÃ©part $\vec x_0$,
 et une fonction objectif $f(\vec x)$, on va approximer
 le zÃ©ro itÃ©rativement avec une suite $\vec x_1$, $\vec x_2$, ... telle que
 \begin{align}
-\vec x_1&=x_0-\lambda\cdot f(\vec x_0),\\
-\vec x_2&=x_1-\lambda\cdot f(\vec x_1),\\
+\vec x_1&=x_0-\lambda\cdot \nabla f(\vec x_0),\\
+\vec x_2&=x_1-\lambda\cdot \nabla f(\vec x_1),\\
 \cdots
 \vec x_{n+1}&=x_n-\lambda\cdot f(\vec x_n),
 \end{align}
@@ -738,6 +738,31 @@ peut se voir dans la @fig:gradient.
 ![Suite d'Ã©tapes pour la descente de gradient. En bleu on voit les courbes de niveaux (les courbes oÃ¹ $f(\vec x)$ est constante). Source: Wikipedia
 <https://bit.ly/2Fhvn7p>](https://upload.wikimedia.org/wikipedia/commons/f/ff/Gradient_descent.svg){#fig:gradient width=70%}
 
+---
+
+#### Exemple (quelques itÃ©rations) {-}
+
+Prenons la fonction objectif $f(x,y)$ suivante
+$$
+f(x,y)=x^2+y^2,
+$$
+et son gradient
+$$
+\nabla f(x,y)=2x+2y.
+$$
+Si on prend comme point de dÃ©part $\vec x_0=(1,0.5)$ et $\lambda=0.25$, on a
+\begin{align}
+\vec x_1=\vec x_0-\lambda\cdot \nabla f(\vec x_0)=(1,0.5)-0.25\cdot (2\cdot 1, 2\cdot 0.5)=(0.5, 0.25),\\
+\vec x_2=\vec x_1-\lambda\cdot \nabla f(\vec x_1)=(0.5,0.25)-0.25\cdot (2\cdot 0.5, 2\cdot 0.25)=(0.25, 0.125),\\
+\cdots
+\end{align}
+En changeant $\lambda=0.5$, on voit qu'on arrive sur le zÃ©ro de la fonction en une itÃ©ration
+\begin{align}
+\vec x_1=\vec x_0-\lambda\cdot \nabla f(\vec x_0)=(1,0.5)-0.5\cdot (2\cdot 1, 2\cdot 0.5)=(0, 0).
+\end{align}
+
+---
+
 Comme pour les fonction Ã  une seule variable, il est nÃ©cessaire de spÃ©cifier une condition d'arrÃªt pour
 la descente de gradient. En gÃ©nÃ©ral, on choisit une tolÃ©rance, $\varepsilon>0$, et la condition d'arrÃªt s'Ã©crit
 $$
@@ -749,5 +774,6 @@ DÃ©pendant de la valeur de $\lambda$ la *convergence* de la mÃ©thode peut varier
 il faut une Ã©norme quantitÃ© d'itÃ©rations pour atteindre le minimum. A l'inverse, en choisissant un $\lambda$ trop grand,
 nous ne somme pas sÃ»rs que nous convergerons un jour. En effet, on pourrait s'Ã©loigner de plus en plus
 du minimum plutÃ´t que de sen approcher. En gÃ©nÃ©ral, on choisit $\lambda\in[0,1)$ mais il n'y a pas de mÃ©thode gÃ©nÃ©rale pour en choisir une valeur "optimale".
-Cela signifie que pour une fonction quelconque, $\lambda$ est choisi de faÃ§on empirique. -->
+Cela signifie que pour une fonction quelconque, $\lambda$ est choisi de faÃ§on empirique.
+
 
-- 
GitLab