Tannina Hamizi

Spécialiste NLP, Data & IA

Traitement Automatique des Langues & Intelligence Artificielle

Diplômée en Traitement Automatique des Langues, je suis passionnée par la data et l'IA. J'adore explorer, analyser et structurer des données complexes pour en extraire des insights pertinents. Je conçois des modèles NLP et des chatbots intelligents capables de comprendre et d’interagir naturellement avec les utilisateurs.

Curieuse et rigoureuse, je transforme les challenges techniques en opportunités d’innovation.

Formation

09/2022 - 09/2024

Master Traitement automatique des langues / NLP

Université Paris Nanterre, France

Spécialisation avancée en linguistique computationnelle et intelligence artificielle.

09/2019 - 06/2022

Licence Sciences du Langage

Université Paris Nanterre, France

Étude approfondie du langage et introduction aux méthodes computationnelles.

Cours Suivis

Linguistique computationnelle

Modélisation linguistique, parsing, corpus arborés, annotations sémantiques, grammaires formelles et fouilles de textes.

Machine Learning & NLP

Apprentissage automatique, RNN, Transformers, text generation, classification et enrichissement de corpus.

Analyse statistique et traitement de corpus

Statistiques textuelles, visualisation de données, outils de traitement de corpus, programmation en Python et R.

Web sémantique & ingénierie des connaissances

Ontologies, Protégé, OWL, SPARQL, documents structurés et linguistique outillée.

Synthèse de parole & Multilinguisme

Phonétique, synthèse et reconnaissance de la parole (Praat, Python), gestion informatique du multilinguisme et langue des signes.

Gestion de projet

Organisation et planification de projets TAL, coordination d’équipes, suivi de développement et mise en œuvre de solutions techniques. Méthodes Agile, Scrum, Kanban et planification itérative.

Projets

DetectTweets – Détection du discours haineux

Python • RNN • BERT • FastAPI • TensorFlow

Développement d’un système de détection du discours haineux sur Twitter.

  • 📊 Données : corpus Twitter annoté (22 660 tweets) réduit à 5 308 pour l’entraînement
  • 🧹 Prétraitement : nettoyage (mentions, liens, ponctuation), mise en minuscules
  • 🧠 Modèles : RNN et BERT
  • ⚙️ Paramètres : séquence max = 40, batch size = 30, 12 epochs, early stopping
  • 💻 Interface : FastAPI + interface utilisateur HTML/CSS/JS
  • 🚀 Déploiement : serveur Uvicorn avec intégration du modèle RNN

🎯 Objectif : proposer une solution robuste pour lutter contre la haine en ligne.

🔗 Voir le projet sur GitHub

Classification Parlementaire

Python • SGD • Random Forest • Naive Bayes • NLP

Conception d’un modèle de classification automatique d’interventions parlementaires multilingues afin d’analyser les discours politiques.

  • 🗣️ Prétraitement linguistique et vectorisation des textes (TF-IDF)
  • ⚙️ Entraînement et comparaison de plusieurs modèles de machine learning
  • 📊 Évaluation des performances à l’aide de métriques de précision et de rappel
  • 🌍 Gestion de corpus multilingues (français, anglais, espagnol)
  • 🔍 Analyse thématique des discours et regroupement par tendance politique
  • 🎯 Objectif : automatiser l’analyse du langage parlementaire pour faciliter la compréhension des débats politiques.

Reconnaissance d’Adverbes Temporels

Unitex • Linguistique computationnelle • Corpus français

Développement d’un système de détection automatique d’adverbes temporels dans un corpus textuel en français.

  • 🧩 Création de grammaires locales et règles linguistiques sous Unitex
  • ⏳ Identification des structures temporelles complexes (“il y a deux ans”, “depuis longtemps”…)
  • 📚 Enrichissement de la base lexicale du français
  • 🧠 Application d’une approche mixte entre linguistique et TAL
  • 🎯 Objectif : améliorer la reconnaissance automatique des expressions temporelles dans les systèmes de TAL.

Synthèse de Parole

Praat • Phonétique

Développement d’un système de synthèse vocale à base de diphones.

  • 🎙️ Corpus : enregistrement de logatomes couvrant 194 diphones
  • 🗂️ Segmentation : annotation manuelle avec TextGrid
  • 🔤 Dictionnaire : adaptation des transcriptions phonétiques
  • ⚙️ Script Praat : concaténation automatique des diphones
  • 🔊 Résultats : fichier audio synthétisé
  • 📈 Problèmes : gestion de la prosodie (f0/durée)
  • 🎯 Objectif : explorer les enjeux de prosodie et naturalité
🔗 Voir le projet sur GitHub

Analyse Sémantique du mot "Pouvoir"

Transformers • BERT • Python • NLP

Étude des variations sémantiques du mot “pouvoir” dans un corpus d’entretiens oraux en français.

  • 🧠 Utilisation du modèle BERT pour la représentation contextuelle des occurrences
  • 🔎 Analyse des différences de sens selon le contexte discursif
  • 📈 Extraction de clusters sémantiques pour regrouper les usages similaires
  • 💬 Interprétation linguistique et pragmatique des résultats

🎯 Objectif : explorer la polysémie et la compréhension contextuelle du langage par les modèles de NLP.

Ontologie des Œuvres d’Art

Protégé • OWL • RDF • SPARQL

Conception et implémentation d’une ontologie des œuvres d’art.

  • 📚 Modélisation des artistes, techniques et mouvements artistiques
  • 🖼️ Représentation des œuvres d’art et métadonnées
  • 🔗 Mise en place de relations entre concepts
  • 🔎 Requêtes SPARQL pour extraire des connaissances
  • 🎯 Objectif pédagogique : apprentissage du Web sémantique

Chatbot Médical

Python • Tkinter • OWL • NLP

Développement d’un chatbot médical intelligent basé sur une ontologie.

  • 🔎 Détection automatique des symptômes
  • 🦠 Identification des maladies possibles
  • 🫀 Affichage des organes affectés
  • ℹ️ Explication médicale
  • 💡 Conseils associés
  • 💻 Interface : application graphique Tkinter / FastAPI
  • 🚀 Déploiement : exécutable autonome Python

🎯 Objectif : outil d’aide à la décision pour les professionnels de santé.

🔗 Voir le projet sur GitHub

Compétences

🤖 NLP & IA

Transformers BERT RNN Word2Vec Scikit-Learn NLTK SpaCy Apprentissage automatique

🛠️ Data & Analyse

Python R NumPy Pandas Matplotlib SQL Neo4j Analyse de données Visualisation de données

🌐 Web & Ontologies

Scraping Protégé SPARQL OWL RDF Web Sémantique

💻 Développement & Outils

Git GitHub GitLab Jupyter Notebook Visual Studio Code LaTeX Microsoft Word Google Docs

🌐 Web & Balisage

HTML CSS XML TEI XSLT XPath XQuery

Contact

Je suis disponible pour des projets, collaborations ou opportunités professionnelles.