Accueil > Intelligence artificielle > L’apprentissage profond - chapitre 5
L’apprentissage profond - chapitre 5
jeudi 21 février 2019, par
• Classification : chaque x est catégorisé : $$$ f : \mathbb{R}^n \rightarrow [ 1 , k ] \cap \mathbb{N}$$$
• Classification avec entrées manquantes : ensemble de $$$2^p$$$ fonctions $$$ f_{(i_n) \subset [ 1 , p ]^n} : \mathbb{R}^n \rightarrow [ 1 , k ] \cap \mathbb{N}$$$.
Par exemple $$$x=(x_1\ldots x_p)$$$ ; si on connaît $$$(x_1,x_3,x_4)$$$ ; on crée $$$f_{(1,3,4)}:(x_1,x_3,x_4) \longmapsto y \in [ 1 , k ] \cap \mathbb{N}$$$
Il faut "apprendre une distribution de probabilités sur toutes les variables pertinentes, puis de résoudre la tâche en marginalisant les variables manquantes.
• régression : prévoir une valeur $$$ f : \mathbb{R}^n \rightarrow \mathbb{R}$$$
• transcription : texte à partir d’un objet complexe ( ocr , par exemple )
• traduction automatique : texte -> texte
• sortie structurée : objet complexe -> vecteur
• détection d’anomalie ( recherche d’événements inhabituels )
• synthèse et échantillonnage : générer de nouveaux exemples ( textures 3D , voix variables à partir d’un texte )
• prévision de valeurs manquantes $$$ (x_1,\ldots,x_3) \rightarrow (x_1,x_2,x_3)$$$
• débruitage : $$$ x_r \rightarrow x$$$ ; on cherche aussi $$$ p (x $$$
• estimation de fonction de probabilité $$$ p_{model} : \mathbb{R}^n \rightarrow \mathbb{R}$$$
Apprentissages non supervisé et supervisés
Régression linéaire
On a $$$ ( x , y )$$$
$$$ \hat{y} = T(w)\ x$$$
Erreur Quadratique : $$$ EQM = \frac{1}{m} \Vert \hat{y} - {y} \Vert_2^2$$$
$$$ EQM = \frac{1}{m} T[ T(w)x - y ] \times [ T(w) x -y ]$$$
$$$ EQM = \frac{1}{m} [ T(x) w - T( y) ] \times T[ T(x) w - T(y) ]$$$
$$$ \nabla_w EQM = 0$$$
ssi $$$ T(x)\times T[ T(x) w - T(y) ] + [ T(x) w - T( y) ] \times T [T(x) ]=0$$$
ssi $$$ T(x) ( T[ T(x) w ] - y) + [ T(x) w - T( y) ] x =0$$$
ssi $$$ T(x)T(w) x - T(x) y + T(x) w x - T( y) x =0$$$
??
Au final $$$ w=(T(x)x)^{-1} T(x)y$$$
Chaque photo a 625 lignes , 1 colonne. n photos donne Ph_625L ;n COL. Chaque photo donne une valeur ; n photos donne 1L,n colonnes.
Les données sont donc (Ph,Y).
On introduit w pour avoir \hatY= w Ph
L’écart quadratique est E_Q=\Vert \hatY- Y \Vert^2 =\Vert w Ph - Y\Vert^2 = (w Ph - Y) T(w Ph - Y) =
w Ph T(Ph) T(w)- w Ph T(Y) - Y T(Ph) T(w) + Y T(Y)
Ph (625L ;n COL) ; Qh (n COL ;625L) = T(Ph)
Y et \hatY (1L ; n COL ) ; Z=T(Y) ( n COL ; 1L )
w ( 1L ;625 COL) ; v ( 625 COL ; 1L)
$$$ \begin{array}[ccc] . E_Q&=& w Ph Qh v - w Ph T(Y) - Y Qh v + Y Z \\ & =& w_{1j} Ph_{jk} Qh_{kl} v_{l1} - w_{1j} Ph_{jk} Z_{k1} - Y_{1j} Qh_{jk} v_{k1} + Y_{1j} Z_{j1}\\ &=& w_{1j} Ph_{jk} Ph_{lk} w_{1l} - w_{1j} Ph_{jk} Y_{1k} - Y_{1j} Ph_{kj} w_{1k} + Y_{1j} Y_{1j} \end{array}$$$
on choisit une colonne a :
$$$
\begin{array}[ccc]
. E_Q&=& w_{1a} Ph_{ak} Ph_{lk} w_{1l\neq a}
&+ w_{1j\neq a} Ph_{jk} Ph_{ak} w_{1a}\\
&&+ w_{1a} Ph_{ak} Ph_{ak} w_{1a}
& - w_{1a} Ph_{ak} Y_{1k}\\
&& - w_{1j\neq a} Ph_{jk} Y_{1k}
& - Y_{1j} Ph_{aj} w_{1a}\\
&& - Y_{1j} Ph_{kj} w_{1k\neq a}
& + Y_{1j} Y_{1j}
\end{array}$$$
Le minimum par rapport à la composante w_1a :
$$$
\begin{array}[cccc]
a \frac{\partial E_Q}{\partial w_{1a}} &=& Ph_{ak} Ph_{lk} w_{1l\neq a}
&+ w_{1j\neq a} Ph_{jk} Ph_{ak} \\
&&+ 2 w_{1a} Ph_{ak} Ph_{ak}
& - Ph_{ak} Y_{1k}\\
&& -0
& - Y_{1j} Ph_{aj} \\
&& -0
& + 0 \end{array}$$$
$$$
\frac{\partial E_Q}{\partial w_{1a}} = 2 Ph_{ak} Ph_{jk} w_{1j\neq a}
+ 2 w_{1a} Ph_{ak}^2 - 2 Ph_{ak} Y_{1k} =0$$$
$$$
Ph_{ak} Ph_{jk} w_{1j\neq a}
+ w_{1a} Ph_{ak}^2 = Ph_{ak} Y_{1k}$$$
$$$
\begin{array}[ccc]
. a=1 : & w_{11} Ph_{1k}^2 + w_{12} Ph_{1k} Ph_{2k}
+w_{1j\geq 3} Ph_{1k} Ph_{jk} = Ph_{1k} Y_{1k} \\
a= 2 &
w_{11} Ph_{2k} Ph_{1k} + w_{12} Ph_{2k}^2
+w_{1j\geq 3} Ph_{2k} Ph_{jk}
= Ph_{2k} Y_{1k}
\end{array}$$$
$$$
(w_{11},w_{12},w_{1j\geq 3}) Ph\ T(Ph) = ( \sum_k Ph_{1k} Y_{1k} , \sum_k Ph_{2k} Y_{1k} \ldots ) = Y\ T(Ph)$$$
$$$w = \ Y\ T(Ph)\ ( Ph\ T(Ph) ) ^{-1}$$$