Publié le 22/02/2016
Auteur Fobec
Réseaux sociaux
0 partages
0 tweets
3 plus
0 commentaires

Traitement automatique des langues

Le Traitement Automatique des Langues (TAL) ou encore le Traitement Automatique du Langage Naturel (TALN) est une branche de l'intelligence artificielle ayant pour but de comprendre un texte. Analyser le sens d'une phrase est bien plus complexe qu'on ne le pense, une langue est riche et les mots peuvent prendre plusieurs facettes en fonction de leur utilisation.

A quoi sert le Traitement Automatique du Langage ?

Utiliser un ordinateur pour comprendre le sens d'un texte est un domaine de recherche assez récent et en constante évolution. Au départ, dans les années après-guerre, des chercheurs se sont lancés le défi de la traduction automatique. Parmi les utilisations actuelles des techniques du TALN, nous pouvons en citer quelques unes:

Classer et organiser les documents

La première étape consiste à synthétiser le contenu d'un document pour résumer le texte en données principales Ensuite grâce à une base de données, les données sont archivées suivant la compréhension qu'aura faite l'ordinateur des textes. L'exemple classique est un ordinateur qui soit classer l'ensemble des documents d'une bibliothèque.

Extraire des données

Lorsque les informations pertinentes sont 'noyées' dans un long texte, que l'on appelle corpus, le TALN est utilisé pour identifier les données. Par exemple, l'on souhaite extraire les noms et les dates d'un relevé historique.

Faire de la veille sur Internet

Imaginons que l'on soit à la tête d'une chaine d’hôtel et l'on souhaite savoir ce qui se dit sur la qualité de l'accueil. Et oui, le traitement automatique du langage est une technique clé pour analyser la multitude des documents sur Internet. A ce jour, l'intelligence artificiel est capable de reconnaitre le commentaire d'un de mes clients et même de savoir s'il a été satisfait ou non.

Comment mettre en place le TALN

Pour un être humain, quelque soit le texte, les mots éveillent un apprentissage, un vécu et des émotions. Pour un ordinateur, les phrases sont compris comme des caractères et une suite de 0 et de 1.

Peut-on faire en sorte qu'un ordinateur réfléchisse comme un humain ?
Ce vieux rêve de construire un robot capable de comprendre et de répondre comme un homme est à ce jour encore une quête future. Par contre, la force d'un ordinateur est de pouvoir analyser d'énormes quantités de données en quelques fractions de seconde. C'est justement cette force qui est utilisé dans les techniques du Traitement Automatique des Langues.

Le TALN s'est développé autour de plusieurs méthodes pour analyser le contenu d'un texte. Une approche commune est la simplification des mots.

La lemmatisation et la racinisation

En effet, pour un ordinateur, toutes les formes conjuguées d'un verbe sont des mots différents. Il en est de même pour le singulier et le pluriel d'un mot qui n'ont aucun lien pour lui. La lemmatisation et la racinisation ont pour but de lier les mots entre eux en simplifiant un texte. Pour que l'ordinateur comprennent une phrase, il faut commencer par lui expliquer que suis, sommes, êtes est le verbe être conjugué à différentes formes.

Les synonymes et les hyperonymes

Lorsque le logiciel analyse correctement un corpus pour en extraire les mots, la prochaine étape est l'apprentissage des sens d'une phrase. C'est à cette étape qu'apparaissent les synonymes et les hyperonymes.

synonyme: ce sont deux mots qui ont une signification presque semblable. Par exemple, toutou, clebs, cabot sont des synonymes du mot chien
hyperonyme: ce sont deux mots qui ont un lien hiérarchique ente eux. Par exemple, chien est l'hyperonyme de caniche car le caniche appartient à la famille des chiens.


Voila quelques notions sur le Traitement Automatique du Langage Naturel. L'apprentissage du sens d'une phrase à un ordinateur est une vaste tache. Si le sujet vous intéresse, nous pourront voir plus en détail la lemmatisation et l'analyse automatique d'un corpus.

Ajouter un commentaire

Les champs marqués d'un * sont obligatoires, les adresses emails se sont pas publiées.

A lire aussi

Réseaux sociaux
Présentation de l'article
Catégorie
news - informatique
Mise a jour
22/02/2016
Visualisation
vu 2211 fois
Public
Internaute
Auteur de la publication
Fobec
Admin
Auteur de 261 articles
|BIO_PSEUDO|
Commentaires récents

Publié par Fobec dans news

Votre message a ete deplace sur le forum, ce sera plus facile pour en discuter.
http://www.fobec.com/forum/correspondance-entre-adresse-ipv4-adresse-ipv6-t1146.html

Publié par Etiazam dans php5

Si je peux me permettre, il manque l'incrementation dans les deux boucles, telles qu'elles sont presentees elles font tourner le navigateur en rond, il faut donc ajouter
for ($x=0;$x<50;$x...

Publié par Kezouille dans java

Bonjour Axel,

Merci pour ce petit guide qui m'a bien aide dans ma tache. En effet j'ai developpe une petite application afin de detecter l'ajout d'un fichier une image dans un repertoire et de...

Publié par Do dans tuto

Et lorsque l'on a un recordset a parcourir ? Que faut-il passer a la vue ? ligne par ligne ou un tableau ? ?
Le PHP est a lui seul deja un systeme de template :
>?php
echo $titre;
?>

Publié par fobec dans CMS

faire le menage !!!!