Cours précédent
Cours suivant
Méthode d’apprentissage
Apprentissage supervisé
Les données d’apprentissage sont accompagnés par labels indiquant leurs classes. Les nouvelles données sont classifiés en se basant sur le set d’entraînement.
Apprentissage non supervisé
Le label de classe des elements observés (entraînement) n’est pas connu. Le but est de déceler l’existence de classes ou groupes dans les données.
Classifieur (évaluation d’un modèle d’apprentissage)
A partir des données de test, on le sépare en deux parties. L’une servira a faire du machine learning et apprendre. L’autre servira de test pour savoir si notre apprentissage est correct.
Si l’ensemble de données est suffisament grand, le dataset est découpé en deux ensemble : Training Set (80%) et Test Set (20%).
On fait l’apprentissage sur le training set. Une fois l’apprentissage terminé, on le valide avec le test set. Mais une fois que le modèle appris a été validé avec le test set il ne faut pas re-apprendre avec ce set.
Cross-validation
On découpe le training set en 4 quarts. On en prend trois, on fait l’apprentissage dessus, et on évalue sur le dernier quart. On fait ainsi pour tout ensemble de quart. La moyenne de tout ces entraînement fera le modèle du training set.
Matrice de confusion (cas binaire) :
| Observation | Observation | |
|---|---|---|
| Expectation | true positive | false positive |
| Expectation | false negative | true negative |
Exemple :
| Chat (positif) | Chien (négatif) | |
|---|---|---|
| Chat | 50 | 15 |
| Chien | 15 | 20 |
Métrique d’évaluation (cas binaire)
Accuracy
Il s’agit de la fraction des exemples bien classés par rapport à toutes les prédications.
\(Acc = \frac{TP + TN}{TP + TN + FP + FN}\)
Si les deux classes sont fortement déséquilibrées, alors cette mesure n’apporte pas d’information pertinente.
Precision
C’est la fraction des vrais positifs parmi les exemples prédits comme positif.
Recall (sensibilité)
Il s’agit du rapport entre le nombre d’exemples de la classe c correctement prédit …
F-measure
Métrique d’évaluation (cas multi-classe)
Il s’agit d’une généralisation de la classification binaire.
La diagonale contient les TP de chaque classes.
Apprentissage supervisé
k-Nearest-Neighbor Classifieur
Si ça marche comme un canard, crie comme un canard, c’est que c’est probablement un canard.
On a besoin de trois choses :
- Un ensemble d’entraînement
- Une mesure de distance
- La valeur de k, le nombre de voisins à interroger)
Pour classifier un nouvel enregistrement :
- calculer la distance vers les autres enregistrements
- identifier k plus proches voisions
- utiliser la classe des k voisions les plus proches pour déterminer la classe du nouvel enregistrement.
Il faut aussi bien choisir ses métriques pour mesurer la distance (comment on mesure la distance entre deux données). Il est parfois nécessaire de standardiser les valeurs avant de calculer les distances.
Ex : distance de Monkowski, euclidienne, de Manhattan
Il faut ensuite déterminer la classe à partir de la liste des voisins. Choisir la classe majoritaire dans le k-voisinage.
Algorithme :
Soit k le nombre de voisins le plus proches et D l’ensemble d’entraînement.
- Pour chaque exemple z=(x’, ?) de l’ensemble de test
- Calculer d(x, x’), la distance de z et chaque (x,y) de D
- Choisir \(D_z \subseteq D\), l’ensemble des k exemples les plus proches de z
- \(y' =\) arg \(max_v \sum_{(x_i, y_i)\in D_z}I(v=y-i)\) //TODO
- Fin pour
Choix de la valeur de k : Si k trop petit alors la classification sera sensible au bruit. Si k trop grand, le voisinage peut contenir des éléments d’autres classes.
Retour
Cours précédent
Cours suivant