A quoi sert le Traitement Automatique du Langage ?
Utiliser un ordinateur pour comprendre le sens d'un texte est un domaine de recherche assez récent et en constante évolution. Au départ, dans les années après-guerre, des chercheurs se sont lancés le défi de la traduction automatique. Parmi les utilisations actuelles des techniques du TALN, nous pouvons en citer quelques unes:Classer et organiser les documents
La première étape consiste à synthétiser le contenu d'un document pour résumer le texte en données principales Ensuite grâce à une base de données, les données sont archivées suivant la compréhension qu'aura faite l'ordinateur des textes. L'exemple classique est un ordinateur qui soit classer l'ensemble des documents d'une bibliothèque.Extraire des données
Lorsque les informations pertinentes sont 'noyées' dans un long texte, que l'on appelle corpus, le TALN est utilisé pour identifier les données. Par exemple, l'on souhaite extraire les noms et les dates d'un relevé historique.Faire de la veille sur Internet
Imaginons que l'on soit à la tête d'une chaine d’hôtel et l'on souhaite savoir ce qui se dit sur la qualité de l'accueil. Et oui, le traitement automatique du langage est une technique clé pour analyser la multitude des documents sur Internet. A ce jour, l'intelligence artificiel est capable de reconnaitre le commentaire d'un de mes clients et même de savoir s'il a été satisfait ou non.Comment mettre en place le TALN
Pour un être humain, quelque soit le texte, les mots éveillent un apprentissage, un vécu et des émotions. Pour un ordinateur, les phrases sont compris comme des caractères et une suite de 0 et de 1.Peut-on faire en sorte qu'un ordinateur réfléchisse comme un humain ?
Ce vieux rêve de construire un robot capable de comprendre et de répondre comme un homme est à ce jour encore une quête future. Par contre, la force d'un ordinateur est de pouvoir analyser d'énormes quantités de données en quelques fractions de seconde. C'est justement cette force qui est utilisé dans les techniques du Traitement Automatique des Langues.
Le TALN s'est développé autour de plusieurs méthodes pour analyser le contenu d'un texte. Une approche commune est la simplification des mots.
La lemmatisation et la racinisation
En effet, pour un ordinateur, toutes les formes conjuguées d'un verbe sont des mots différents. Il en est de même pour le singulier et le pluriel d'un mot qui n'ont aucun lien pour lui. La lemmatisation et la racinisation ont pour but de lier les mots entre eux en simplifiant un texte. Pour que l'ordinateur comprennent une phrase, il faut commencer par lui expliquer que suis, sommes, êtes est le verbe être conjugué à différentes formes.Les synonymes et les hyperonymes
Lorsque le logiciel analyse correctement un corpus pour en extraire les mots, la prochaine étape est l'apprentissage des sens d'une phrase. C'est à cette étape qu'apparaissent les synonymes et les hyperonymes.synonyme: ce sont deux mots qui ont une signification presque semblable. Par exemple, toutou, clebs, cabot sont des synonymes du mot chien
hyperonyme: ce sont deux mots qui ont un lien hiérarchique ente eux. Par exemple, chien est l'hyperonyme de caniche car le caniche appartient à la famille des chiens.
Voila quelques notions sur le Traitement Automatique du Langage Naturel. L'apprentissage du sens d'une phrase à un ordinateur est une vaste tache. Si le sujet vous intéresse, nous pourront voir plus en détail la lemmatisation et l'analyse automatique d'un corpus.