|
|
|
|
Rubriques - Mon CV - Publications avec CSS - Ma thèse avec CSS Principaux logiciels - EMACOP - Raphaël Système de reconaissance de GEOD Webmestre de - Titch Ka Ra Groupe de folk progressif - Logiciels pour NT Liens intéressants - Remi Emonet Contact - Écrivez-moi (enlever "tiretDoms") - INRIA : +33 4 76 61 55 19 - UFR ESE : +33 4 76 82 78 36 01/01/1970 (00:00) |
Modélisation statistique du langage à partir d'Internet
pour la reconnaissance automatique de la parole continue
Vous trouverez dans ces pages ma thèse de doctorat en Informatique Système et Communication de
l'Université Joseph Fourier. Vous avez accès à la version original en HTML avec CSS ici
et au document final en PDF par ma page de publications. Les résumés en français et en anglais,
présents dans le manuscrit de thèse, se trouve ci-après.
Mots-clefs :
Modélisation statistique du langage, reconnaissance de la parole, Internet, détection de thèmes.
Résumé :
Les ressources textuelles sont celles qui font le plus défaut dans les recherches sur la modélisation statistique du langage,
surtout pour l'apprentissage de modèles adaptés au dialogue. Cette thèse propose d'utiliser les documents en provenance d'Internet
pour l'apprentissage de tels modèles.
La collecte de plusieurs corpus a permis la mise en évidence de certaines propriétés intéressantes. Celles-ci concernent
la quantité de texte, le nombre de vocables différents mais surtout la possibilité de trouver des formes propres à l'expression
orale. Ces formes ne se trouvent pas dans les corpus journalistiques qui sont pourtant très largement employés. L'évolution
de ces documents au cours des dernières années a encore accru cette adéquation.
La thèse introduit alors une nouvelle méthode, entièrement automatique, de calcul de modèles de langage à
partir de ces données. Elle commence par un filtrage dit par " blocs minimaux " basé sur le vocabulaire de
l'application visée. Ensuite, le calcul du modèle de langage statistique, type n-gramme, se fait au prix d'une
légère adaptation des algorithmes standards dans le domaine. Les résultats de cette méthode sont de l'ordre de 90% pour
des petits vocabulaires et de 80% pour de plus larges vocabulaires. De plus, les résultats obtenus, sans aucune
adaptation, sur une base sonore état de l'art de l'AUPELF sont du même ordre que ceux des autres laboratoires ayant
participé à l'évaluation.
La thèse présente aussi d'autres applications d'Internet. Ainsi, L'utilisation de la hiérarchie des newsgroups
permet la mise au point d'un détecteur de thème fondé sur une normalisation de modèles unigrammes. Ses performances
sont d'environs 70%. L'intégration de ce détecteur au sein des algorithmes de reconnaissance de la parole permet
un gain de 5% en taux de reconnaissance. Enfin, une adaptation de la méthode des blocs minimaux a été utilisée
pour faciliter la définition d'un ensemble de phrases pour l'enregistrement d'un corpus sonore.
Keywords:
Statistical language modelling, continuous speech recognition, Internet, Topic detection.
Summary:
In statistical language modelling researches, there is a lack of huge text corpora, especially for spoken
language modelling. This thesis deals with using Internet documents in order to train such statistical models.
After gathering corpora, we highlighted several interesting properties like the huge quantity of text, the number
of different French lexical forms and especially the ability of finding spoken dialog utterances. This kind of
utterances is not present in usual journalistic corpora even if these corpora are widely used. During the past
years, the evolution of Internet documents increased this adequacy.
This thesis also introduces a new fully automatic method to compute statistical language models on Internet
data. This method starts with a special filter called "minimal blocks" only based on the lexicon. Next,
with modified computing algorithms, we can obtain statistical models like n-grams. Results using this method
are about 90% of words accuracy for small vocabulary and about 80% of words accuracy for larger ones.
Moreover, results on a state of the art audio corpus given by AUPELF for evaluation, without any kind of
adaptation, are close to those obtained by other research teams.
In this thesis, we also report other applications of Internet documents. Indeed, using the French newsgroups
hierarchy, we can compute a topic detector based on normalized unigrams models. Topic detection accuracy
is about 70%. Using this topic detector in speech recognition algorithms can increase word accuracy by up to of 5%.
At last, a derived approach from "minimal blocks" method has been applied to define a set of sentences to record
an audio corpus.
|