Chapitre 1- Introduction Générale
Introduction générale au Traitement Linguistique et l’Apprentissage Probabilisé
Le traitement linguistique (NLP pour Natural Language Processing) est une discipline que l’on peut définir à l’intersection de 3 domaines de recherche anciens : l’informatique, la linguistique et l’intelligence artificielle. Son but est de rendre l’ordinateur capable de traiter voire de comprendre le langage naturel afin de faire des choses utiles comme la traduction automatique d’une langue à une autre, la réponse à des requêtes écrites ou orales, l’extraction d’information d’un ensemble de textes, la classification automatique, etc.La représentation et la compréhension totales du langage humain par une machine est objectif très ambitieux et très difficile à atteindre. Et en raison de cette difficulté que l’Apprentissage Probabilisé (AI) a été utilisé
Quelques spécificités du langage humain
Le
langage humain est spécifiquement élaboré pour transmettre les idées d’une
personne à une autre. C’est un système de signaux discrets, symboliques et
catégoriques qui a comme particularité d’être encodé d’une façon rapide à
apprendre (un enfant de 3 ans est déjà capable d’en saisir les principales
nuances).
De
plus, les symboles composant le langage humain ont d’autres supports vecteurs
comme les sons, les gestes et les intonations des interlocuteurs dans le cas du
langage parlé. Les symboles sont donc invariants quelques soit le système de
codage utilisé.
Une
autre particularité du langage humain est que ces symboles catégoriques sont
compris par le cerveau humain à partir une séquence continue de stimuli
(d’activations) sonore ou visuel.
Qu’est-ce que l’Apprentissage Probabilisé ?
Le
terme Apprentissage Probabilisé est un des termes possibles utilisés pour
traduire Deep Learning, également traduit par Apprentissage Profond. Cette
discipline est une sous-discipline de l’Apprentissage Automatique (Machine
Learning).
Dans
le cas courant, les techniques d’apprentissage automatique reposent sur
l’adéquation progressive (itérative) entre des données organisées sous forme de
caractéristiques prédéfinies (features) et des représentations du monde réel,
définies manuellement par l’homme.
- La définition de ces caractéristiques prédéfinies (features) n’est pas simple, demande l’intervention d’experts dans chaque domaine concerné, est peu transférable d’un domaine à un autre, et finalement demande beaucoup de temps et d’efforts.
- Le processus d’apprentissage automatique n’est qu’une opération d’optimisation numérique pour itérativement améliorer la représentation des données en entrée en fonction de ces features afin de mieux respecter un jeu d’entraînement connu par l’ordinateur. Le postulat de base est qu’une optimisation sur un jeu de données connu entraînera une meilleure prédiction sur un jeu de donnée nouveau.
A la
différence de ce qui est fait en apprentissage automatique, aucune feature
n’est fourni à un programme d’apprentissage probabilisé qui va lui-même définir
ces caractéristiques grâce à une approche itérative d’essais-erreurs. La
machine apprend donc quelle est la meilleure représentation des données pour un
problème donné et l’utilise afin d’améliorer sa prédictibilité sur une jeu de
données inconnu.
- Les caractéristiques proposées par la machine sont plus flexibles et ne demandent que peu d’interventions humaines expertes du domaine en question.
- Ces techniques peuvent fonctionner avec des jeux de données labélisés ou pas suivant le problème à résoudre (recherche de schémas dans les données, classification, ect.).
Les
applications de l’apprentissage probabilisé sont nombreuses et dépassent le
traitement linguistique.
Les objectifs de ce cours
Ce cours est d’un niveau élevé et a trois objectifs
principaux :
- Les méthodes modernes d’apprentissage probabilisé
- Compréhension générale des langages humains
- Systèmes algorithmiques basés sur TensorFlow en traitement linguistique
Les difficultés du traitement linguistique
Représenter, apprendre et utiliser une connaissance linguistique dans une situation particulière et un contexte donné est une tâche très complexe car le langage humain est souvent ambigu.NLP Probabilisé, la combinaison du DL et du NLP
L’idée
fondatrice de ce mariage des deux disciplines est la représentation de tout
mot, toute phrase d’un texte ou d’une conversation sous la forme d’un vecteur
analysable par la machine. Avec une représentation des éléments d’un texte sous
la forme de vecteurs respectifs, il est possible de calculer la similarité de
ces éléments sous forme mathématique (distance, produit scalaire, etc..).
Jérôme
Commentaires
Enregistrer un commentaire