Accéder au contenu principal

Une source de données pour expérimentation en NLP

Une source de données pour expérimentation en NLP

Les données, encore les données, toujours les données. C'est un des principaux problèmes de nos travaux en Intelligence Artificielle. Souvent les idées sont la, le code ou les outils prêts mais manquent les données pour l'entrainement des modèles ou la calibration des algorithmes.


https://github.com/niderhoff/nlp-datasets

Dans la page indiquée ici, vous trouverez de nombreux liens vers de bases de données NLP structurées ou non. A vous d'explorer et de trouver la ou les perles rares qui feront de votre projet IA un succès !

Commentaires

Posts les plus consultés de ce blog

Stanford 2017 - Neural Language Processing et Techniques associées (2/18)

Chapitre 2- Représentation Vectorielle des mots Comment représenter la signification d’un mot en informatique ? Un  mot, tout comme une phrase, représente avant tout une idée, l’idée qu’une  personne veut exprimer. Une des façons les plus immédiates d’exprimer une idée,  c’est d’utiliser un mot, qui est finalement un symbole. WordNet Une  solution historique pour représenter la signification d’un mot en informatique  est de fournir au programme des listes de synonymes ou d’hyperonymes. C’est-à-dire de coder en dur des listes de correspondances entre les mots d’un  vocabulaire.  Une ressources couramment utilisée est WordNet qui comprend un nombre important de mots et leurs synonymes/hyperonymes mais manque de nuances, n’est pas mise à jour régulièrement, peut  être subjectif, requiert une action humaine pour être adapté quant à son contenu et surtout, ne permet  calculer de façon précise les similarités entre mots au-delà de celles entrées par l’homme lors de la créat

Intelligence Artificielle, Apprentissage Probabilisé et Apprentissage Profond en Français

IA-France vous propose de suivre l'actualité de l'Intelligence Artificielle et de ses dérivées en Français dans le texte. La grande majorité des articles et des sites ou blogs traitant du sujet est proposée en Anglais, et même si la majorité de la population intéressée par ces sujets maîtrise l'Anglais, il m'a semblé important de proposer au moins une actualité et des tutoriaux en Français pour la population intéressée et francophone. Vous êtes donc les bienvenus sur IA-France, un blog sur l'IA, l'Apprentissage Probabilisé et l'Apprentissage Profond en Français. Bonne visite et bonne lecture Jérôme

Stanford 2017 - Neural Language Processing et Techniques associées (1/18)

Chapitre 1- Introduction Générale     Introduction générale au Traitement Linguistique et l’Apprentissage Probabilisé Le traitement linguistique (NLP pour Natural Language Processing) est une discipline que l’on peut définir à l’intersection de 3 domaines de recherche anciens : l’informatique, la linguistique et l’intelligence artificielle. Son but est de rendre l’ordinateur capable de traiter voire de comprendre le langage naturel afin de faire des choses utiles comme la traduction automatique d’une langue à une autre, la réponse à des requêtes écrites ou orales, l’extraction d’information d’un ensemble de textes, la classification automatique, etc. La représentation et la compréhension totales du langage humain par une machine est objectif très ambitieux et très difficile à atteindre. Et en raison de cette difficulté que l’Apprentissage Probabilisé (AI) a été utilisé    Quelques spécificités du langage humain Le langage humain est spécifiquement élaboré pour tran