Portfolio - NLP & IA

Formation

09/2022 - 09/2024

Master Traitement automatique des langues / NLP

Université Paris Nanterre, France

Spécialisation avancée en linguistique computationnelle et intelligence artificielle.

09/2019 - 06/2022

Licence Sciences du Langage

Université Paris Nanterre, France

Étude approfondie du langage et introduction aux méthodes computationnelles.

Cours Suivis

Linguistique computationnelle

Modélisation linguistique, parsing, corpus arborés, annotations sémantiques, grammaires formelles et fouilles de textes.

Machine Learning & NLP

Apprentissage automatique, RNN, Transformers, text generation, classification et enrichissement de corpus.

Analyse statistique et traitement de corpus

Statistiques textuelles, visualisation de données, outils de traitement de corpus, programmation en Python et R.

Web sémantique & ingénierie des connaissances

Ontologies, Protégé, OWL, SPARQL, documents structurés et linguistique outillée.

Synthèse de parole & Multilinguisme

Phonétique, synthèse et reconnaissance de la parole (Praat, Python), gestion informatique du multilinguisme et langue des signes.

Gestion de projet

Organisation et planification de projets TAL, coordination d’équipes, suivi de développement et mise en œuvre de solutions techniques. Méthodes Agile, Scrum, Kanban et planification itérative.

Projets

DetectTweets – Détection du discours haineux

Python • RNN • BERT • FastAPI • TensorFlow

Développement d’un système de détection du discours haineux sur Twitter.

📊 Données : corpus Twitter annoté (22 660 tweets) réduit à 5 308 pour l’entraînement
🧹 Prétraitement : nettoyage (mentions, liens, ponctuation), mise en minuscules
🧠 Modèles : RNN et BERT
⚙️ Paramètres : séquence max = 40, batch size = 30, 12 epochs, early stopping
💻 Interface : FastAPI + interface utilisateur HTML/CSS/JS
🚀 Déploiement : serveur Uvicorn avec intégration du modèle RNN

🎯 Objectif : proposer une solution robuste pour lutter contre la haine en ligne.

🔗 Voir le projet sur GitHub

Classification Parlementaire

Python • SGD • Random Forest • Naive Bayes • NLP

Conception d’un modèle de classification automatique d’interventions parlementaires multilingues afin d’analyser les discours politiques.

🗣️ Prétraitement linguistique et vectorisation des textes (TF-IDF)
⚙️ Entraînement et comparaison de plusieurs modèles de machine learning
📊 Évaluation des performances à l’aide de métriques de précision et de rappel
🌍 Gestion de corpus multilingues (français, anglais, espagnol)
🔍 Analyse thématique des discours et regroupement par tendance politique
🎯 Objectif : automatiser l’analyse du langage parlementaire pour faciliter la compréhension des débats politiques.

Reconnaissance d’Adverbes Temporels

Unitex • Linguistique computationnelle • Corpus français

Développement d’un système de détection automatique d’adverbes temporels dans un corpus textuel en français.

🧩 Création de grammaires locales et règles linguistiques sous Unitex
⏳ Identification des structures temporelles complexes (“il y a deux ans”, “depuis longtemps”…)
📚 Enrichissement de la base lexicale du français
🧠 Application d’une approche mixte entre linguistique et TAL
🎯 Objectif : améliorer la reconnaissance automatique des expressions temporelles dans les systèmes de TAL.

Synthèse de Parole

Praat • Phonétique

Développement d’un système de synthèse vocale à base de diphones.

🎙️ Corpus : enregistrement de logatomes couvrant 194 diphones
🗂️ Segmentation : annotation manuelle avec TextGrid
🔤 Dictionnaire : adaptation des transcriptions phonétiques
⚙️ Script Praat : concaténation automatique des diphones
🔊 Résultats : fichier audio synthétisé
📈 Problèmes : gestion de la prosodie (f0/durée)
🎯 Objectif : explorer les enjeux de prosodie et naturalité

🔗 Voir le projet sur GitHub

Analyse Sémantique du mot "Pouvoir"

Transformers • BERT • Python • NLP

Étude des variations sémantiques du mot “pouvoir” dans un corpus d’entretiens oraux en français.

🧠 Utilisation du modèle BERT pour la représentation contextuelle des occurrences
🔎 Analyse des différences de sens selon le contexte discursif
📈 Extraction de clusters sémantiques pour regrouper les usages similaires
💬 Interprétation linguistique et pragmatique des résultats

🎯 Objectif : explorer la polysémie et la compréhension contextuelle du langage par les modèles de NLP.

Ontologie des Œuvres d’Art

Protégé • OWL • RDF • SPARQL

Conception et implémentation d’une ontologie des œuvres d’art.

📚 Modélisation des artistes, techniques et mouvements artistiques
🖼️ Représentation des œuvres d’art et métadonnées
🔗 Mise en place de relations entre concepts
🔎 Requêtes SPARQL pour extraire des connaissances
🎯 Objectif pédagogique : apprentissage du Web sémantique

Chatbot Médical

Python • Tkinter • OWL • NLP

Développement d’un chatbot médical intelligent basé sur une ontologie.

🔎 Détection automatique des symptômes
🦠 Identification des maladies possibles
🫀 Affichage des organes affectés
ℹ️ Explication médicale
💡 Conseils associés
💻 Interface : application graphique Tkinter / FastAPI
🚀 Déploiement : exécutable autonome Python

🎯 Objectif : outil d’aide à la décision pour les professionnels de santé.

🔗 Voir le projet sur GitHub

Tannina Hamizi

Formation

Master Traitement automatique des langues / NLP

Licence Sciences du Langage

Cours Suivis

Linguistique computationnelle

Machine Learning & NLP

Analyse statistique et traitement de corpus

Web sémantique & ingénierie des connaissances

Synthèse de parole & Multilinguisme

Gestion de projet

Projets

DetectTweets – Détection du discours haineux

Classification Parlementaire

Reconnaissance d’Adverbes Temporels

Synthèse de Parole

Analyse Sémantique du mot "Pouvoir"

Ontologie des Œuvres d’Art

Chatbot Médical

Compétences

🤖 NLP & IA

🛠️ Data & Analyse

🌐 Web & Ontologies

💻 Développement & Outils

🌐 Web & Balisage

Contact