IA et cyberdéfense : les SIEM de nouvelle génération à base de LLM

Les SIEM traditionnels face aux limites de la détection classique

Depuis une quinzaine d’années, les SIEM (Security Information and Event Management) constituent la colonne vertébrale des centres opérationnels de sécurité, les fameux SOC. Ces plateformes agrègent des millions d’événements journaliers issus de pare-feux, serveurs, applications et terminaux, pour tenter d’y déceler des comportements suspects. Mais face à l’explosion des volumes de données et à la sophistication croissante des cyberattaques, les solutions classiques atteignent leurs limites. Les règles de corrélation statiques, écrites à la main par des analystes, peinent à s’adapter à des menaces qui évoluent en permanence. En France, où la cybersécurité est devenue une priorité nationale — rappelons que l’ANSSI gère chaque année plusieurs centaines d’incidents majeurs —, la question d’une modernisation profonde des outils de détection n’est plus optionnelle. C’est dans ce contexte tendu que les SIEM de nouvelle génération, fondés sur des modèles de langage de grande taille (LLM), commencent à s’imposer comme une réponse sérieuse.

Qu’est-ce qu’un SIEM à base de LLM, concrètement ?

Un LLM, ou Large Language Model, est le type de modèle d’intelligence artificielle qui propulse des outils comme ChatGPT ou Mistral. À la différence d’une IA de détection d’anomalies classique, un LLM ne se contente pas d’analyser des séquences numériques : il comprend le contexte, peut raisonner sur des événements complexes et formuler des hypothèses en langage naturel. Appliqué à la cyberdéfense, cela change radicalement la donne. Un SIEM enrichi d’un LLM est capable d’interpréter des logs en langage quasi-humain, de relier des événements apparemment disparates sur une longue fenêtre temporelle, et surtout de générer des explications intelligibles pour l’analyste en charge. Plutôt que d’afficher une alerte cryptique du type RULE_4521_TRIGGERED, le système peut désormais formuler : « Un utilisateur du service RH a accédé à 3 200 fichiers en 8 minutes depuis une adresse IP géolocalisée en dehors de la France, immédiatement après un échec d’authentification. Probabilité d’exfiltration de données : élevée. » Ce glissement vers le raisonnement contextuel représente une rupture technologique majeure.

Les acteurs français qui s’emparent du sujet

La France n’est pas spectatrice de cette révolution. Plusieurs entreprises et institutions hexagonales investissent activement ce créneau. Sekoia.io, pure player français de la cybersécurité installé à Paris, a intégré des capacités d’IA générative dans sa plateforme SOC, permettant notamment une analyse automatisée des rapports de Threat Intelligence et une qualification plus rapide des alertes. Du côté des grands groupes, Thales et Airbus CyberSecurity travaillent sur des briques d’IA pour renforcer leurs offres SOC-as-a-Service, avec une attention particulière portée aux environnements souverains — un critère décisif pour les administrations françaises et les opérateurs d’importance vitale (OIV). L’ANSSI, de son côté, suit de près ces évolutions et a publié en 2024 des recommandations encadrant l’usage de l’IA dans les systèmes de détection, insistant sur la nécessité de conserver un contrôle humain dans la boucle de décision. Enfin, des startups comme Dust ou des spin-offs académiques issus de l’Inria commencent à proposer des approches innovantes combinant RAG (Retrieval-Augmented Generation) et bases de données de TTPs (Tactiques, Techniques et Procédures) issues du framework MITRE ATT&CK.

Bénéfices réels et cas d’usage documentés

Les promesses des SIEM nouvelle génération ne sont pas que théoriques. Des retours d’expérience concrets commencent à émerger. Microsoft, avec son outil Copilot for Security intégré à Sentinel, a démontré dans des environnements pilotes une réduction significative du temps moyen de réponse à un incident (MTTR), parfois divisé par deux ou trois sur certains types d’attaques. Des résultats similaires sont observés avec Google Security Operations, qui exploite des LLM pour enrichir automatiquement les alertes avec du contexte issu de bases de Threat Intel. Pour les SOC français confrontés à une pénurie chronique d’analystes qualifiés — une réalité bien documentée dans les rapports annuels de Wavestone sur le marché de la cybersécurité —, l’apport d’un LLM comme premier niveau d’analyse et de triage représente un gain opérationnel considérable. La technologie permet également de générer automatiquement des requêtes de chasse (threat hunting) en langage naturel, que l’outil traduit ensuite en requêtes KQL ou SPL selon la plateforme utilisée, abaissant ainsi la barrière technique pour les analystes moins expérimentés.

Les risques et les zones d’ombre à ne pas négliger

Malgré l’enthousiasme légitime, plusieurs points de vigilance s’imposent. Le premier concerne les hallucinations : un LLM peut produire des analyses plausibles mais factuellement incorrectes, ce qui dans un contexte de sécurité peut mener à de mauvaises décisions — ignorer une vraie menace ou mobiliser des ressources sur un faux positif élaboré. Le deuxième risque est celui de la confidentialité des données. Les logs de sécurité contiennent des informations extrêmement sensibles sur l’infrastructure d’une organisation ; les envoyer vers un LLM hébergé dans un cloud étranger pose des questions sérieuses de souveraineté numérique, particulièrement pour les entités soumises à SecNumCloud ou au règlement NIS2, désormais transposé en droit français. C’est précisément pourquoi plusieurs acteurs privilégient des déploiements on-premise ou dans des environnements cloud qualifiés, en s’appuyant sur des modèles open source comme Mistral, qui offre l’avantage d’être développé en France et de pouvoir être déployé en environnement maîtrisé. Enfin, la question de l’explicabilité reste ouverte : comment un analyste peut-il challenger la conclusion d’un LLM s’il ne comprend pas le raisonnement sous-jacent ? La confiance aveugle dans un système d’IA constitue elle-même un vecteur de risque.

Vers une cyberdéfense augmentée, pas automatisée

Le consensus qui se dessine dans la communauté cybersécurité française est nuancé : les LLM appliqués aux SIEM ne remplaceront pas les analystes humains, mais transformeront profondément leur métier. L’objectif n’est pas l’automatisation totale de la réponse aux incidents — trop risquée dans des environnements critiques —, mais l’augmentation des capacités humaines. Un analyste assisté d’un LLM peut traiter plus d’alertes, mieux contextualisées, avec moins d’efforts cognitifs répétitifs. Il peut se concentrer sur les décisions à forte valeur ajoutée : la stratégie de remédiation, la communication de crise, l’analyse post-mortem. En France, où le tissu industriel compte de nombreux OIV et OSE (Opérateurs de Services Essentiels) soumis à des obligations réglementaires strictes, cette évolution est à la fois une opportunité et un impératif. Les prochains mois verront probablement plusieurs appels d’offres publics intégrer explicitement des exigences relatives à l’IA dans les SIEM — un signal fort que la cyberdéfense augmentée par les LLM est en train de passer du stade de l’expérimentation à celui de la norme opérationnelle.