Accéder au contenu principal

Intelligence Artificielle, Apprentissage Probabilisé et Apprentissage Profond en Français

IA-France vous propose de suivre l'actualité de l'Intelligence Artificielle et de ses dérivées en Français dans le texte.

La grande majorité des articles et des sites ou blogs traitant du sujet est proposée en Anglais, et même si la majorité de la population intéressée par ces sujets maîtrise l'Anglais, il m'a semblé important de proposer au moins une actualité et des tutoriaux en Français pour la population intéressée et francophone.

Vous êtes donc les bienvenus sur IA-France, un blog sur l'IA, l'Apprentissage Probabilisé et l'Apprentissage Profond en Français.

Bonne visite et bonne lecture

Jérôme

Commentaires

Posts les plus consultés de ce blog

Une source de données pour expérimentation en NLP

Une source de données pour expérimentation en NLP Les données, encore les données, toujours les données. C'est un des principaux problèmes de nos travaux en Intelligence Artificielle. Souvent les idées sont la, le code ou les outils prêts mais manquent les données pour l'entrainement des modèles ou la calibration des algorithmes. https://github.com/niderhoff/nlp-datasets Dans la page indiquée ici, vous trouverez de nombreux liens vers de bases de données NLP structurées ou non. A vous d'explorer et de trouver la ou les perles rares qui feront de votre projet IA un succès !

Stanford 2017 - Classification de mots par fenêtre glissante et Réseau de Neurones (4/18)

Chapitre 4- Classification de mots par fenêtre glissante et Réseau de Neurones Beaucoup de choses nouvelle dans ce cours. Il est dense mais il présente à la fois la base du principe de classification appliquée au langage, le notion de fonction Softmax, sa dérivée, le principe fondamental de régularisation et enfin la généralisation des principes précédents aux réseaux de neurones. Accrochons-nous ensemble, cela vaut le coup. Classification On commence par rappeler les notations utilisées dans ce chapitre ainsi que les notions de base. Un processus de classification est le plus souvent un processus supervisé, c’est-à-dire que l’on entraîne le réseau de neurones en lui donnant des données dont on connaît la catégorie (le label). En conséquence, les données d’entraînement sont constituées d’un nombre N d’échantillons, chacun de ces points de données étant défini par un couple {donnée, label} et noté {xi, y i } pour i entre 1 et N. Les valeurs yi de chaque c...

Stanford 2017 - Représentation vectorielle des mots, Word2Vec et Glove (3/18)

Chapitre 3- Représentation Vectorielle des mots, Word2Vec et Glove Word2Vec On se souvient que l’approche retenue pour Word2Vec est celle du skip-gram qui considère une fenêtre glissante de taille fixée se déplaçant successivement d’un mot à l’autre d’un texte pour analyser le mot central de cette fenêtre  et son contexte, c'est-à-dire les mots associés à ce mot central, de chaque coté. La probabilité d’un mot du contexte est exprimée sous la forme d’une probabilité conditionnelle dépendante du mot central et suivant une loi softmax. La fonction objective à minimiser dépend donc non seulement des mots présents dans la fenêtre à l’instant t, mais aussi de tous les mots présents dans le vocabulaire (V) et donc les probabilités conditionnelles servent à normaliser celles des mots de la fenêtre. Avec un vocabulaire contenant des dizaines voire des centaines de milliers de mots, le calcul des gradients est très long et met en jeu une large proportion de vecteurs m...