Publié le 22/02/2016
Auteur Fobec
Réseaux sociaux
0 partages
0 tweets
3 plus
0 commentaires

Traitement automatique des langues

Le Traitement Automatique des Langues (TAL) ou encore le Traitement Automatique du Langage Naturel (TALN) est une branche de l'intelligence artificielle ayant pour but de comprendre un texte. Analyser le sens d'une phrase est bien plus complexe qu'on ne le pense, une langue est riche et les mots peuvent prendre plusieurs facettes en fonction de leur utilisation.

A quoi sert le Traitement Automatique du Langage ?

Utiliser un ordinateur pour comprendre le sens d'un texte est un domaine de recherche assez récent et en constante évolution. Au départ, dans les années après-guerre, des chercheurs se sont lancés le défi de la traduction automatique. Parmi les utilisations actuelles des techniques du TALN, nous pouvons en citer quelques unes:

Classer et organiser les documents

La première étape consiste à synthétiser le contenu d'un document pour résumer le texte en données principales Ensuite grâce à une base de données, les données sont archivées suivant la compréhension qu'aura faite l'ordinateur des textes. L'exemple classique est un ordinateur qui soit classer l'ensemble des documents d'une bibliothèque.

Extraire des données

Lorsque les informations pertinentes sont 'noyées' dans un long texte, que l'on appelle corpus, le TALN est utilisé pour identifier les données. Par exemple, l'on souhaite extraire les noms et les dates d'un relevé historique.

Faire de la veille sur Internet

Imaginons que l'on soit à la tête d'une chaine d’hôtel et l'on souhaite savoir ce qui se dit sur la qualité de l'accueil. Et oui, le traitement automatique du langage est une technique clé pour analyser la multitude des documents sur Internet. A ce jour, l'intelligence artificiel est capable de reconnaitre le commentaire d'un de mes clients et même de savoir s'il a été satisfait ou non.

Comment mettre en place le TALN

Pour un être humain, quelque soit le texte, les mots éveillent un apprentissage, un vécu et des émotions. Pour un ordinateur, les phrases sont compris comme des caractères et une suite de 0 et de 1.

Peut-on faire en sorte qu'un ordinateur réfléchisse comme un humain ?
Ce vieux rêve de construire un robot capable de comprendre et de répondre comme un homme est à ce jour encore une quête future. Par contre, la force d'un ordinateur est de pouvoir analyser d'énormes quantités de données en quelques fractions de seconde. C'est justement cette force qui est utilisé dans les techniques du Traitement Automatique des Langues.

Le TALN s'est développé autour de plusieurs méthodes pour analyser le contenu d'un texte. Une approche commune est la simplification des mots.

La lemmatisation et la racinisation

En effet, pour un ordinateur, toutes les formes conjuguées d'un verbe sont des mots différents. Il en est de même pour le singulier et le pluriel d'un mot qui n'ont aucun lien pour lui. La lemmatisation et la racinisation ont pour but de lier les mots entre eux en simplifiant un texte. Pour que l'ordinateur comprennent une phrase, il faut commencer par lui expliquer que suis, sommes, êtes est le verbe être conjugué à différentes formes.

Les synonymes et les hyperonymes

Lorsque le logiciel analyse correctement un corpus pour en extraire les mots, la prochaine étape est l'apprentissage des sens d'une phrase. C'est à cette étape qu'apparaissent les synonymes et les hyperonymes.

synonyme: ce sont deux mots qui ont une signification presque semblable. Par exemple, toutou, clebs, cabot sont des synonymes du mot chien
hyperonyme: ce sont deux mots qui ont un lien hiérarchique ente eux. Par exemple, chien est l'hyperonyme de caniche car le caniche appartient à la famille des chiens.


Voila quelques notions sur le Traitement Automatique du Langage Naturel. L'apprentissage du sens d'une phrase à un ordinateur est une vaste tache. Si le sujet vous intéresse, nous pourront voir plus en détail la lemmatisation et l'analyse automatique d'un corpus.

Ajouter un commentaire

Les champs marqués d'un * sont obligatoires, les adresses emails se sont pas publiées.

A lire aussi

Réseaux sociaux
Présentation de l'article
Catégorie
news - informatique
Mise a jour
22/02/2016
Visualisation
vu 2278 fois
Public
Internaute
Auteur de la publication
Fobec
Admin
Auteur de 261 articles
|BIO_PSEUDO|
Commentaires récents

Publié par stux dans java

Génial.. C'est exactement ce que je cherchais.

Publié par Jacques dans CMS

Cette méthode produit une gamme de gris qui ne tient pas compte des caractéristiques de la vision humaine.
En vidéo on utilise la fonction luminance qui représente mieux les jaunes et les ve...

Publié par Absolut dans news

Bonjour,
Dans l'outil de localisation d'IP, je ne comprends pas le sens de la rubrique precision dans le Rapport d'analyse de l'adresse IP ex 1/10, 9/10, bonne, ....
Merci

Publié par Annuaire francophone dans tuto

Bonjour, savez-vous s'il existe un logiciel de capture d'écran (ascreen) pour window. Merci

Publié par foufou0406 dans CMS

merci !!!