Publié le 22/02/2016
Auteur Fobec
Réseaux sociaux
0 partages
0 tweets
3 plus
0 commentaires

Traitement automatique des langues

Le Traitement Automatique des Langues (TAL) ou encore le Traitement Automatique du Langage Naturel (TALN) est une branche de l'intelligence artificielle ayant pour but de comprendre un texte. Analyser le sens d'une phrase est bien plus complexe qu'on ne le pense, une langue est riche et les mots peuvent prendre plusieurs facettes en fonction de leur utilisation.

A quoi sert le Traitement Automatique du Langage ?

Utiliser un ordinateur pour comprendre le sens d'un texte est un domaine de recherche assez récent et en constante évolution. Au départ, dans les années après-guerre, des chercheurs se sont lancés le défi de la traduction automatique. Parmi les utilisations actuelles des techniques du TALN, nous pouvons en citer quelques unes:

Classer et organiser les documents

La première étape consiste à synthétiser le contenu d'un document pour résumer le texte en données principales Ensuite grâce à une base de données, les données sont archivées suivant la compréhension qu'aura faite l'ordinateur des textes. L'exemple classique est un ordinateur qui soit classer l'ensemble des documents d'une bibliothèque.

Extraire des données

Lorsque les informations pertinentes sont 'noyées' dans un long texte, que l'on appelle corpus, le TALN est utilisé pour identifier les données. Par exemple, l'on souhaite extraire les noms et les dates d'un relevé historique.

Faire de la veille sur Internet

Imaginons que l'on soit à la tête d'une chaine d’hôtel et l'on souhaite savoir ce qui se dit sur la qualité de l'accueil. Et oui, le traitement automatique du langage est une technique clé pour analyser la multitude des documents sur Internet. A ce jour, l'intelligence artificiel est capable de reconnaitre le commentaire d'un de mes clients et même de savoir s'il a été satisfait ou non.

Comment mettre en place le TALN

Pour un être humain, quelque soit le texte, les mots éveillent un apprentissage, un vécu et des émotions. Pour un ordinateur, les phrases sont compris comme des caractères et une suite de 0 et de 1.

Peut-on faire en sorte qu'un ordinateur réfléchisse comme un humain ?
Ce vieux rêve de construire un robot capable de comprendre et de répondre comme un homme est à ce jour encore une quête future. Par contre, la force d'un ordinateur est de pouvoir analyser d'énormes quantités de données en quelques fractions de seconde. C'est justement cette force qui est utilisé dans les techniques du Traitement Automatique des Langues.

Le TALN s'est développé autour de plusieurs méthodes pour analyser le contenu d'un texte. Une approche commune est la simplification des mots.

La lemmatisation et la racinisation

En effet, pour un ordinateur, toutes les formes conjuguées d'un verbe sont des mots différents. Il en est de même pour le singulier et le pluriel d'un mot qui n'ont aucun lien pour lui. La lemmatisation et la racinisation ont pour but de lier les mots entre eux en simplifiant un texte. Pour que l'ordinateur comprennent une phrase, il faut commencer par lui expliquer que suis, sommes, êtes est le verbe être conjugué à différentes formes.

Les synonymes et les hyperonymes

Lorsque le logiciel analyse correctement un corpus pour en extraire les mots, la prochaine étape est l'apprentissage des sens d'une phrase. C'est à cette étape qu'apparaissent les synonymes et les hyperonymes.

synonyme: ce sont deux mots qui ont une signification presque semblable. Par exemple, toutou, clebs, cabot sont des synonymes du mot chien
hyperonyme: ce sont deux mots qui ont un lien hiérarchique ente eux. Par exemple, chien est l'hyperonyme de caniche car le caniche appartient à la famille des chiens.


Voila quelques notions sur le Traitement Automatique du Langage Naturel. L'apprentissage du sens d'une phrase à un ordinateur est une vaste tache. Si le sujet vous intéresse, nous pourront voir plus en détail la lemmatisation et l'analyse automatique d'un corpus.

Ajouter un commentaire

Les champs marqués d'un * sont obligatoires, les adresses emails se sont pas publiées.

A lire aussi

Réseaux sociaux
Présentation de l'article
Catégorie
news - informatique
Mise a jour
22/02/2016
Visualisation
vu 1880 fois
Public
Internaute
Auteur de la publication
Fobec
Admin
Auteur de 261 articles
|BIO_PSEUDO|
Commentaires récents

Publié par diet dans CMS

Mais programme-dietetique.com est un site. En logiciel il y a diettesettics.com

Publié par jyfv dans CMS

hgfdhgfdhgf

Publié par robbie dans tuto

desole pour le message en multiple j'ai eu un ptit beug

Publié par Verkork dans java

Le probleme c'est que ce code ne convient pas quand une partie de la page est dynamique, ie qu'elle est rafraichit toutes les minutes par exemple. Par exemple pour une telle page, c'est...

Publié par FOBEC dans CMS

test
commentaire