{"slug": "comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee", "title": "Comment laisser GPT-5.5 corriger un CV sans jamais lui montrer un seul donnée personnelle", "summary": "A developer created piighost-proofreader, a tool that anonymizes CVs locally before sending them to an LLM for proofreading, ensuring no personal data like names, addresses, or employer details are exposed to the third-party service. The system uses an AI-powered detector to replace sensitive information with placeholders, then streams corrections back to the original PDF in real-time using instructor's `create_iterable` method for granular, object-by-object output.", "body_md": "Pour relire votre CV avant un envoi important, vous pouvez le confier à un LLM. Quelques secondes, et vous avez une liste de fautes. Sauf que vous venez aussi de donner votre nom, votre adresse, vos employeurs et vos dates à un service tiers.\n\n`piighost-proofreader`\n\nrésout ça. Le CV est anonymisé localement avant l'appel au LLM, et les corrections retrouvent leur place sur le PDF d'origine :\n\nLe LLM ne voit jamais un nom, une date, une adresse.\n\nL'anonymisation, c'est la partie facile. Le morceau pénible, c'est de retrouver dans le PDF un mot que le LLM n'a vu qu'en Markdown. Et le LLM et PyMuPDF ne tokenisent pas pareil.\n\nPremière idée : avant d'envoyer le CV au LLM, on remplace les données sensibles par une bonne grosse regex. Ça marche pour les emails et les numéros de téléphone, qui ont un format reconnaissable. Pour le reste, c'est mort.\n\n`Paul Martin`\n\nressemble à n'importe quels deux mots capitalisés ; rien dans le texte ne dit à une regex que c'est un nom.`Orange`\n\nest une entreprise. C'est aussi un fruit. `Mars`\n\n, `Apple`\n\n, `Carrefour`\n\n, pareil.Il faut un détecteur entraîné, pas un pattern. `piighost`\n\nen fournit un, et l'appel ressemble à ça :\n\n``` python\n# src/proofreader/anonymize.py\nasync def anonymize(self, text: str, *, thread_id: str) -> str:\n    return await self._call(\n        \"/v1/anonymize\", text, thread_id, response_key=\"anonymized_text\"\n    )\n```\n\nLe `thread_id`\n\nest une UUID par CV. Le mapping entité→placeholder reste côté serveur, isolé par cet ID : un même nom devient le même placeholder à chaque occurrence.\n\n`instructor`\n\nUn CV de deux pages contient une bonne quinzaine de fautes, et le LLM prend plusieurs secondes pour les sortir. Sans streaming, l'utilisateur fixe un loader pendant tout ce temps. Avec, les fautes apparaissent une par une au fur et à mesure que le modèle les émet.\n\nLe piège : la plupart des libs de structured output (LangChain `with_structured_output`\n\n, OpenAI Functions, Pydantic AI) renvoient le résultat *complet*. Vous demandez un `list[Mistake]`\n\n, vous recevez la liste entière une fois l'inférence terminée. Pas de granularité objet par objet.\n\n`instructor`\n\nrègle exactement ce cas. Sa méthode `create_iterable`\n\nparse le JSON streamé par le LLM au fil de l'eau et renvoie chaque objet pydantic dès qu'il est complet :\n\n```\n# src/proofreader/llm.py\nclient = instructor.from_litellm(litellm.acompletion)\nresponse = client.chat.completions.create_iterable(\n    model=model,\n    response_model=Mistake,   # un seul objet, pas list[Mistake]\n    messages=[\n        {\"role\": \"system\", \"content\": SYSTEM_PROMPT_STREAM.format(language=language)},\n        {\"role\": \"user\", \"content\": markdown},\n    ],\n)\nasync for mistake in response:\n    yield mistake\n```\n\nDeux complications qui ne sautent pas aux yeux :\n\n**Le prompt change selon le mode.** Pour un `with_structured_output`\n\nLangChain, on demande au LLM de renvoyer un objet wrapper avec une liste de Mistakes dedans. Pour `create_iterable`\n\n, on lui demande d'émettre un seul Mistake JSON par tour de génération. Les deux prompts ne sont pas tout à fait les mêmes. Le projet maintient les deux côte à côte : LangChain pour le chemin Streamlit one-shot, `instructor`\n\npour le streaming FastAPI.\n\n**Le streaming SSE en aval.** Chaque `Mistake`\n\némis est immédiatement repackagé en event Server-Sent Events côté FastAPI, puis envoyé au frontend. Le locator de la section suivante tourne *par-Mistake*, donc l'utilisateur voit chaque rectangle rouge apparaître au fur et à mesure, pas en bloc à la fin.\n\nPour chaque `Mistake`\n\nqu'`instructor`\n\nrenvoie, j'ai un `error_text`\n\n, un `correction`\n\n, un `context_before`\n\n, et une `description`\n\n. Le LLM, lui, n'a jamais vu un seul pixel du PDF : il travaillait sur le Markdown extrait. Aucun champ ne contient des coordonnées.\n\nOr l'utilisateur veut voir les corrections sur le PDF d'origine, pas un texte plat dans une page de résultats. Donc il faut, pour chaque erreur, retrouver le mot dans le PDF.\n\nDu côté PDF, j'utilise PyMuPDF, qui me donne un *word stream* : la liste de tous les mots de la page avec leurs `bbox`\n\n(rectangles en points). Le problème devient : trouver la fenêtre `[mot1, mot2, …]`\n\ndans cette liste. Sauf que le LLM et PyMuPDF ne tokenisent pas pareil, que les apostrophes typographiques ne sont pas alignées, et que sur un CV en deux colonnes le LLM hallucine parfois son `context_before`\n\n.\n\nD'où quatre stratégies essayées dans l'ordre. Chacune rattrape un cas que la précédente ne sait pas gérer :\n\n``` python\n# src/proofreader/locator.py\ndef locate_mistake(mistake: Mistake, *, words: list[Word]) -> LocatedMistake | None:\n    err_tokens = mistake.error_text.split()\n    if not err_tokens:\n        return None\n    ctx_tokens = mistake.context_before.split()\n\n    # Strategy 1: strict whole-word match.\n    matched = _match_window(ctx_tokens, err_tokens, words, normalize=False)\n    if matched is not None:\n        return _build_located(mistake, matched)\n\n    # Strategy 2: punctuation-tolerant (casefold + ASCII quotes + strip punct).\n    matched = _match_window(ctx_tokens, err_tokens, words, normalize=True)\n    if matched is not None:\n        return _build_located(mistake, matched)\n\n    # Strategy 3: error_text alone if it appears exactly once on the page.\n    # Catches LLM context drift in multi-column layouts.\n    matched = _find_error_alone_if_unique(err_tokens, words)\n    if matched is not None:\n        return _build_located(mistake, matched)\n\n    # Strategy 4: substring of the concatenated normalised stream. Handles LLM\n    # tokenisation drift like `d'une` → `d' + une`, where the standalone word\n    # has no PyMuPDF token equivalent.\n    matched = _find_error_as_substring_if_unique(err_tokens, words)\n    if matched is not None:\n        return _build_located(mistake, matched)\n\n    return None\n```\n\nPourquoi cet ordre exact :\n\n**Strict.** La fenêtre `context_before + error_text`\n\ncorrespond au mot près, sans normalisation. Le cas heureux : le LLM cite le PDF parfaitement, correspondance exacte, zéro ambiguïté.\n\n**Tolérant.** Le LLM capitalise le premier mot d'une phrase, ou remplace `'`\n\npar `'`\n\n(apostrophe typographique). `_normalize`\n\ncasefold le tout, remplace les guillemets et apostrophes typographiques par leur version ASCII, et retire la ponctuation que PyMuPDF colle aux tokens.\n\n**Error-only unique.** Sur les CVs en deux colonnes, le `context_before`\n\nque le LLM produit est parfois pioché dans la *mauvaise* colonne (les modèles linéarisent maladroitement le multi-colonne). Si l'`error_text`\n\nn'apparaît qu'une fois sur la page, on prend, peu importe le contexte. Ça suffit dans la quasi-totalité des cas.\n\n**Substring du stream concaténé.** Cas tordu : `d'une`\n\nest un mot pour le LLM, mais PyMuPDF le tokenise en `d'`\n\n+ `une`\n\n. Le LLM peut renvoyer `error_text=\"une\"`\n\ncomme mot isolé, sans token PyMuPDF correspondant. Solution : concaténer tous les tokens de la page en une seule chaîne et chercher en sous-chaîne. On filtre par `_MIN_SUBSTRING_CHARS = 5`\n\n, parce que sans ça un `error_text=\"une\"`\n\nse retrouve dans `commune`\n\n, `lacune`\n\n, `tribune`\n\n. Bonjour les faux positifs.\n\nSi aucune des quatre n'attrape rien, l'erreur passe dans une section *« Non localisées »* du résultat plutôt que d'être silencieusement perdue. Une erreur visible que l'utilisateur peut lire mais qui n'a pas son rectangle rouge, c'est moins grave qu'une erreur dont on prétend qu'elle est ailleurs.\n\nSi vous bricolez quelque chose de similaire, trois choses à retenir :\n\n`instructor`\n\nest conçu pour ça.`piighost`\n\nrègle le premier point. `instructor`\n\nrègle le deuxième. Le troisième m'a fait écrire ce projet, dont le code est ouvert.\n\nIssues et PR bienvenues. Si vous travaillez sur du texte privé avec un LLM, les trois points ci-dessus vont probablement vous parler.", "url": "https://wpnews.pro/news/comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee", "canonical_source": "https://dev.to/athroniaeth/comment-laisser-gpt-55-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee-personnelle-ij7", "published_at": "2026-05-27 16:13:29+00:00", "updated_at": "2026-05-27 16:41:37.188660+00:00", "lang": "en", "topics": ["large-language-models", "ai-tools", "ai-safety", "natural-language-processing", "ai-products"], "entities": ["GPT-5.5", "piighost", "PyMuPDF", "Paul Martin", "Orange", "Mars", "Apple", "Carrefour"], "alternates": {"html": "https://wpnews.pro/news/comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee", "markdown": "https://wpnews.pro/news/comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee.md", "text": "https://wpnews.pro/news/comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee.txt", "jsonld": "https://wpnews.pro/news/comment-laisser-gpt-5-5-corriger-un-cv-sans-jamais-lui-montrer-un-seul-donnee.jsonld"}}