Retour
Cours suivant

Introduction

“The goal of machine learning is to build computer systems that can adapt and learn from their experience” - Tom Dietterich

Un programme informatique apprend par expérience E avec le respect de la classe de tâche T et une mesure de performance P, si la performance de la tâche T, mesurée par P, s’améliore sur l’expérience E.

Il faut bien différencier :

Rappels d’algèbre linéaire

Les vecteurs et matrices sont nécessaires pour convertir des images/données en nombres sur lesquels ont pourra facilement appliquer des algorithmes.

Notions de base

Définition

Vecteur : \((V_i)_{1<=i<=n}\)

Matrice : \(A = (a_{i,j})_{1<=i<=m; 1<=j<=n}\)

Addition : \(C = (c_{i,j})_{1<=i<=m; 1<=j<=n} = A + B = (a_{i,j} + b_{i,j})\)

Multiplication :

Transposée de \(A = (a_{i,j})\) : \(A^T = (a_{j,i})\)

Inverse : Unique matrice carrée \(A^{-1}\) telle que \(A \times A^{-1} = I\) (la matrice identité)

Trace : La trace d’une matrice carrée est la somme de ses entrées en diagonale. \(tr(A) = \sum^n_{i=1} a_{i,i}\)

Déterminant : \(det(A) = \sum^n_{i=1} (-1)^{i+j} \times a_{i,j}\)

Propriétés

Norme

Une norme est une fonction : \(N : V \to [0, +\infty [\) où V est un espace vectoriel tel que :

Exemple de normes :

\(L^1\), Manhattan : \(\mid\mid x\mid\mid _1\) \(\sum^{n}_{i=1} \mid x_i\mid\)

Rang

Dépendance linéaire :
Les vecteurs \(v_1, v_2, ..., v_n\) sont dit dépendants s’il existe des scalaires \(\alpha_1v_1, \alpha_2v_2, ..., \alpha_nv_n\) tels que :

Sinon, les vecteurs \(v_1, v_2, ..., v_n\) sont dit indépendants.

Rang d’une matrice :
Le rang d’une matrice A, noté \(rang(A)\) est la dimension de l’espace vectoriel généré par ses colonnes. Ceci est équivalent au nombre maximum de colonnes indépendantes de 1.

Valeurs propres, Vecteurs propres

Définition :
\(A\in R^{n\times n}, \lambda\) est une valeur propre de A s’il existe un vecteur \(v \in R^*\) appelé propre, tel que : \(Av = \lambda v\)

Opérations avancées

Gradient

\(f : \mathbb{R}^{m\times n} \to \mathbb{R}\) une fonction
\(A \in \mathbb{R}^{m\times n}\) une matrice

Le gradient de f par rapport à A est une matrice de \(R^{m\times n}\), notée \(\nabla_A f(A)\) définie par :
\((\nabla_A f(A))_{i,j} = \frac{\partial f(A)}{\partial a_{i,j}} \forall(i,j) \in \{1,2,...,m\} \times \{1,2,..., n\}\)

Hessienne

\(f : \mathbb{R}^{m\times n} \to \mathbb{R}\) une fonction
\(x \in \mathbb{R}^{n}\) une matrice

La hésienne de f par rapport à x est une matrice symétrique de \(\mathbb{R}^{n\times m}\) notée \(\partial^2_x f(x)\), définie par :
\((\partial^2_x f(x))_{i,j} = \frac{\partial^2 f(x)}{\partial x_i \partial x_j}, \forall i,j \in \{1,2,...,n\}\)

Rappels de probabilités

Distribution uniforme

Tous les éléments de \(\Omega\) sont de même probabilité.

Un espace probabilisé discret est un couple \((\Omega, \mathbb{P} r)\), où \(\Omega\) est un ensemble non vide au plus dénombrable et \(\mathbb{P} r\) une application de \(\Omega\) dans [0,1] telle que :
\(\sum_{\omega\in\Omega} \mathbb{P} r(\omega) = 1\)

Probabilité conditionnelles

Soit \((\Omega,\mathbb{P} r)\) unn espace probabilisé discret et soit A un événement de probabilité non nulle. On appelle \(\mathbb{P} r(B/A)\) probabilité conditionnelle de B sachant A telle que :
\(\mathbb{P} r(B/A) = \frac{\mathbb{P} r(A\cap B)}{\mathbb{P} r(A)}, \forall B \in P(\Omega)\)

Conditionnement par A : \(Pr(A\cap B) = Pr(B/A)Pr(a)\)

Loi des probabilités totales :
Soit \(A_1, ..., A_n\) une partition de \(\Omega\). Si chacun des ensemble de probabilité est non nul alors : \(\mathbb{P} r(B) = \sum^{n}_{i=1} \mathbb{P} r(A_i)\mathbb{P} r(B/A_i), \forall B \in P(\Omega)\)

Indépendance

deux événements sont indépendant si : \(\mathbb{P} r(A\cap B) = \mathbb{P} r(A)\mathbb{P} r(B)\)

Théorème de Bayes

Soit l’évènement B causé par l’un des évènements \(A_1, A_2, ..., A_n\), tous de probabilité non nulle.
On connaît les probabilités \(\mathbb{P} r(A_i)\) ainsi que $$\mathbb{P} r(B/A_i).

On peut alors calculer la probabilité \(\mathbb{P} r(A_i/B)\) :
\(\mathbb{P} r(A_i/B) = \frac{\mathbb{P} r(A_i)\mathbb{P} r(B/A_i)}{\sum^{n}_{j=1} \mathbb{P} r(A_j)\mathbb{P} r(B/A_j)}\)

En particulier, pour deux évènements A et B :
\(\mathbb{P} r(A/B) = \frac{\mathbb{P} r(A)\mathbb{P} r(B/A)}{\mathbb{P} r(B)}\)

Variables aléatoires

Soit \((\Omega,\mathbb{P} r)\) un espace probabilisé discret et soit \(\Omega'\) un ensemble non vide dénombrable.
Une variable aléatoire X à valeur dans \(\Omega'\) est une application de \(\Omega\) dans \(\Omega'\)
On pourra munir \(\Omega'\) d’une loi de probabilité \(\mathbb{P} r_X\) en posant : \(\mathbb{P} r_X(\omega') = \mathbb{P} r(X^-1(\{\omega'\})) \forall \omega' \in \Omega'\)

Fonction de répartition

Soit \(\mathbb{P}r\) une mesure de probabilité. Sa fonction de répartition F est définie par : \(F(t) = \mathbb{P}r(]-\infty, t]), \forall t \in \mathbb{R}\)

S’il existe une fonction f telle que : \(F(t) = \int_{-\infty}^{t} f(x)dx, \forall t \in \mathbb{R}\) Alors cette fonction s’appelle densité de \(\mathbb{P}r\).

La fonction de répartition étant croissante, si la densité f existe, son intégrale de \(-\infty\) à \(t\) doit valoir \(F(t)\). Donc on peut définir la densité f comme la dérivée de la fonction de répartiton, si cette dernière en admet une.

Cas CDF PDF Propriétés
Discret \(F(t) = \sum_{x_i\leq t}\mathbb{P}r(X=x_i)\) \(f(x_i) = \mathbb{P}r(X=x_i)\) \(0\leq f(x_i)\leq 1\) et \(\sum_i f(x_i)=1\)
Continu \(F(t) = \int_{-\infty}^{t}f(x)dx\) \(f(x)=\frac{dF}{dx}\) \(f(x)\geq 0\) et \(\int_{-\infty}^{+\infty} f(x)dx = 1\)

Expérance

L’espérance d’une variable aléatoire est définie comme la somme des valeurs prises pondérées par les probabilités respectives.

Cas \(\mathbb{E}(X)\) \(\mathbb{E}(g(X))\)
Discret \(\sum_{i=1}^{n}x_i\mathbb{P}r(X=x_i)\) \(\sum_{i=1}^{n}g(x_i)\mathbb{P}r(X=x_i)\)
Continu \(\int_{-\infty}^{+\infty} xf(x)dx\) \(\int_{-\infty}^{+\infty} g(x)f(x)dx\)

Linéarité de l’espérance :
Soit \(X_1\) et \(X_2\) deux variables aléatoires définies sur le même espace probabilisé discret (\(\Omega, \mathbb{P}r\)) et admettant toutes deux une espérance. Soit \(\alpha \in \mathbb{R}\). Alors :
\(\mathbb{E}(\alpha X_1) = \alpha\mathbb{E}(X_1)\)
\(\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)\)

Distributivité conjointe :
Soient \(X\) et \(Y\) deux variables aléatoires définies sur (\(\Omega, \mathbb{P}r\)).
\(\mathbb{P}r_{XY}(X=x,Y=y)=\mathbb{P}r(\{\omega\in\Omega\mid X(\omega)=x,Y(\omega)=y\})\)

\(X\) et \(Y\) sont indépendantes si : \(\mathbb{P}r_{XY}(X=x,Y=y)=\mathbb{P}r_X(X=x) \mathbb{P}r_Y(Y=y)\)

Variance

Un paramètre important qui vient tout de suite après l’espérance est la variance. Elle mesure la dispersion d’une variable aléatoire. Si X est une v.a. définie sur \((\Omega, \mathbb{P}r)\), sa variance est définie par : \(\mathbb{V}ar(X) = \mathbb{E}((X - \mathbb{E}(X))^2)\)

La racine carré de la variance est appelé écart-type : \(\sigma(X)=\sqrt{\mathbb{V}ar(X)}\)

Distributions importantes

Type Distribution PDF \(\mathbb{E}(X)\) \(\mathbb{V}ar(X)\)
Discret \(X\sim B(n,p)\) \(\mathbb{P}r(X=k)=\binom{n}{k}p^kq^{n-k}\) \(np\) \(npq\)
Discret \(X\sim P(\lambda)\) \(\mathbb{P}r(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\) \(\lambda\) \(\lambda\)
Continu \(X\sim U(a,b)\) \(f(x)=\frac{1}{b-a}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
Continu \(X\sim E(\lambda)\) \(f(x)=\lambda e^{-\lambda x}\) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\)
Continu \(X\sim N(\mu, \sigma)\) \(f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\) \(\mu\) \(\sigma\)

Retour
Cours suivant