Durant près de deux heures, Jérôme Durand a fait une brillante et intéressante démonstration des outils développés par OPPSCIENCE devant un public conquis de professionnels. Jérôme Durand d’OPPSCIENCE, directeur de solution d’analyse criminelle, après un parcours au sein du ministère de l’Intérieur chargé de la partie financière et de la partie crime organisé.
J’ai rejoint OPPSCIENCE il y a 2 ans.
Pourquoi ?
Parce que ma première mission quand j’étais au ministère de l’Intérieur a été de regarder le travail des enquêteurs, surtout des analystes criminels. « J’ai observé leur manière de travailler et j’ai essayé d’apporter des solutions pour leur permettre de gagner du temps, et d’être plus efficaces, et de trouver les informations dans cette masse de données ». Avant SPECTRA, nous avions une première version qui s’appelait Bee4sense, ainsi qu’un moteur de recherche incluant les technologies d’analyse sémantique et de traitement de langage naturel OPPSCIENCE.
J’ai rejoint OPPSCIENCE il y a 2 ans.
Pourquoi ?
Parce que ma première mission quand j’étais au ministère de l’Intérieur a été de regarder le travail des enquêteurs, surtout des analystes criminels. « J’ai observé leur manière de travailler et j’ai essayé d’apporter des solutions pour leur permettre de gagner du temps, et d’être plus efficaces, et de trouver les informations dans cette masse de données ». Avant SPECTRA, nous avions une première version qui s’appelait Bee4sense, ainsi qu’un moteur de recherche incluant les technologies d’analyse sémantique et de traitement de langage naturel OPPSCIENCE.
Pourquoi un actionnariat majoritaire par IDEMIA dans OPPSCIENCE ?
À la suite du lancement de son nouveau logiciel SPECTRA, OPPSCIENCE est une société qui a dédié son travail de recherche et développement sur tout ce qui est gestion et analyse de la donnée (Intelligence Analysis Management) pour la lutte contre le crime. Cet actionnariat nous permet d’enrichir leur offre dans le secteur du Law Enforcement et d’intégrer des briques d’Idemia.
Cela nous permet également d’intégrer des outils d’autres solutions du marché, et de centraliser ces résultats malgré la complexité des différentes sources et formats du Big Data.Comme Vocapia, permet de de faire de la retranscription de la voix ou encore Systran pour la traduction automatique. Cela nous permet de fournir une solution souveraine de traitement des données hétérogènes similaire à Palantir aux forces de l’ordre. Plus intéressant qu’un point d’entrée aux informations contextuelles, SPECTRA génère des nouvelles connaissances pour compléter des dossiers suite aux mises à jour des sources de donnés dispersées.
Le ministère de l’Intérieur a fait l’acquisition de nos solutions et nous a renouvelé sa confiance pour les quatre prochaines années. La dernière solution, SPECTRA, est celle qui est vraiment destinée à l’application de la loi, donc aux enquêtes. Tout service de police et de gendarmerie français peut faire une demande et au gré des besoins, nous pouvons adapter notre réponse technologique. Nous avons déjà des déploiements en cours en vue des Jeux Olympiques de Paris 2024.
Dans le domaine public, notre application traite beaucoup de procès-verbaux et de dossiers d’analyse. L’idée est de croiser les informations pour retrouver des coïncidences. Par exemple, je recherche une ‘corvette blanche’ mentionnée dans un dossier il y a 10 ans. Nous allons faire des croisements sur d’autres documents où la description d’une ‘corvette blanche’ est aussi mentionnée dans un témoignage.
Notre vision est basée sur un constat : dans un service de police ou de gendarmerie, il y a toute une documentation qui doit être traitée. Nous trouvons également de l’audio, de la vidéo. Environ 60% de cette documentation est du texte. C’est ce que traite SPECTRA. Le reste se trouve sous d’autres formats et supports. Grâce à des partenariats nous allons les convertir en texte afin de pouvoir les traiter.
L’expérience nous a montré que la vie d’un service de police ou de préfecture dans sa gestion quotidienne manipulait et générait des masses documentaires importantes qui étaient partiellement traitées.
Et que des événements sortant de l’ordinaire dans leur ampleur, comme les attentats, ne recevaient pas toute l’attention qu’ils devraient. Une part très importante des pistes et des documents finissaient malheureusement non traités, non compulsés. Le caractère séquentiel du traitement humain. L’impossibilité matérielle d’exploiter ces pistes, conduisaient l’autorité à faire des choix et à devoir s’arrêter faute de ressources humaines de moyens financiers.
Avec la solution que nous proposons, nous permettons d’alimenter des bases de données de manière automatisée et de ne plus faire de saisies manuelles.
Nous traitons et faisons les extractions sémantiques afin d’avoir déjà un graphe relationnel IT dans des délais rapides, comprenant des données souvent inexploitées, dans le but de transformer la donnée en information, et l’information en connaissance.
Il devient alors possible d’avoir une vision globale à partir d’un point d’entrée unique.
Dans la solution SPECTRA, nous intégrons de l’intelligence artificielle, du machine learning, pour l’analyse sémantique. La machine est capable de comprendre vraiment le texte en profondeur. C’est-à-dire qu’à partir d’un point d’entrée, elle sera capable d’explorer toute la documentation criminelle ou non qui sera en relation dans la base de données.
Dans le respect des limites juridiques imposées par le droit comme la RGPD et modérera ou interdira aux enquêteurs de croiser différentes enquêtes en cours ou dossiers. Un avocat pourra toutefois demander à lever cette limitation s’il repère une coïncidence qui pourrait bénéficier à son client.
Ces questions de décloisonnement agitent le milieu professionnel face aux nouvelles criminalités. Certaines institutions en France y sont favorables, d’autres non.
SPECTRA permet de garantir le cloisonnement, applicable à tous les éléments du dossier. En cas de besoin, il peut être atténué car il y a des exceptions, si l’enquêteur en fait la demande à un administrateur et que cette demande concerne des pièces du dossier ou si cela concerne la victime, un mineur par exemple.
Cette limitation ne concerne que la France ; dans d’autres pays où nous sommes présents, ces restrictions n’existent pas forcément
Notre application SPECTRA a deux volets : un volet moteur de recherche sémantique et un volet analyse criminelle plus poussé pour les enquêteurs. Elle est très puissante et répond aux besoins d’un environnement complexe, exigeant, avec une obligation de connaissances spécifiques qu’on ne peut trouver nul part.
Par exemple à partir d’un point d’immatriculation, de voir la temporalité sur tous les éléments que nous avons dans notre documentation. Un numéro de téléphone, c’est tout de suite voir graphiquement les connexions et établir une cartographie.
A côté de cela nous intégrons aussi des éléments de traitement de langages en temps réel pour tenir compte des informations circulant entre l’AFP, les médias et le ministère de l’Intérieur et traiter de façon sémantique ces informations afin de pouvoir mettre à jour, intégrer de nouveaux faits comme des attaques cyber sur des hôpitaux.
Nous enrichissons ainsi nos solutions, nos ontologies avec le langage des communautés de hackers, les langages des organisations criminelles, à l’image des Hells Angels. On peut aussi intégrer des références d’armes, classées par calibres et catégories.
Six langues sont actuellement déployées, le russe et le roumain sont en projet.
Mais plus que les mots, ce sont les tournures de phrases et l'ambiguïté qui sont un véritable défi.
JD précise que si la part du traitement fait intervenir massivement les outils informatiques. Il n’en demeure pas moins que la question sur ce qui peut relever du traitement informatique et celle qui relève du travail humain, demeure légitime. En aucun cas l’humain ne doit être écarté. Il y a un travail de régulation qui doit venir de la part du législateur et des autorités.
Le traitement sémantique est aujourd’hui particulièrement puissant et nous pouvons avoir une véritable compréhension des phrases. Par exemple aujourd’hui, l’outil fait parfaitement la différence dans un échange téléphonique transcrit entre la ville de Fresnes et la maison d’arrêt de Fresnes. Ce qui n’a pas le même sens, ni les mêmes conséquences, si un ou plusieurs commissariats devaient lancer une série d’interrogatoires.
Nous pourrions aussi imaginer l’intégration d’autres sources et étendre ce domaine au monde carcéral, où les données ne sont pas exploitées. Les surveillants rédigent beaucoup de rapports et de notes qui ne remontent pas. Alors que l’on pourrait détecter de nombreux signaux faibles, comme des changements de comportements, qui peuvent être interprétés comme des signes de radicalisation.
Enfin, il faut avoir à l’esprit que toutes les informations viennent, proviennent, et sont stockées chez le client, à aucun moment, OPPSCIENCE ne fait transiter des données par ses serveurs.
Cela nous permet également d’intégrer des outils d’autres solutions du marché, et de centraliser ces résultats malgré la complexité des différentes sources et formats du Big Data.Comme Vocapia, permet de de faire de la retranscription de la voix ou encore Systran pour la traduction automatique. Cela nous permet de fournir une solution souveraine de traitement des données hétérogènes similaire à Palantir aux forces de l’ordre. Plus intéressant qu’un point d’entrée aux informations contextuelles, SPECTRA génère des nouvelles connaissances pour compléter des dossiers suite aux mises à jour des sources de donnés dispersées.
Le ministère de l’Intérieur a fait l’acquisition de nos solutions et nous a renouvelé sa confiance pour les quatre prochaines années. La dernière solution, SPECTRA, est celle qui est vraiment destinée à l’application de la loi, donc aux enquêtes. Tout service de police et de gendarmerie français peut faire une demande et au gré des besoins, nous pouvons adapter notre réponse technologique. Nous avons déjà des déploiements en cours en vue des Jeux Olympiques de Paris 2024.
Dans le domaine public, notre application traite beaucoup de procès-verbaux et de dossiers d’analyse. L’idée est de croiser les informations pour retrouver des coïncidences. Par exemple, je recherche une ‘corvette blanche’ mentionnée dans un dossier il y a 10 ans. Nous allons faire des croisements sur d’autres documents où la description d’une ‘corvette blanche’ est aussi mentionnée dans un témoignage.
Notre vision est basée sur un constat : dans un service de police ou de gendarmerie, il y a toute une documentation qui doit être traitée. Nous trouvons également de l’audio, de la vidéo. Environ 60% de cette documentation est du texte. C’est ce que traite SPECTRA. Le reste se trouve sous d’autres formats et supports. Grâce à des partenariats nous allons les convertir en texte afin de pouvoir les traiter.
L’expérience nous a montré que la vie d’un service de police ou de préfecture dans sa gestion quotidienne manipulait et générait des masses documentaires importantes qui étaient partiellement traitées.
Et que des événements sortant de l’ordinaire dans leur ampleur, comme les attentats, ne recevaient pas toute l’attention qu’ils devraient. Une part très importante des pistes et des documents finissaient malheureusement non traités, non compulsés. Le caractère séquentiel du traitement humain. L’impossibilité matérielle d’exploiter ces pistes, conduisaient l’autorité à faire des choix et à devoir s’arrêter faute de ressources humaines de moyens financiers.
Avec la solution que nous proposons, nous permettons d’alimenter des bases de données de manière automatisée et de ne plus faire de saisies manuelles.
Nous traitons et faisons les extractions sémantiques afin d’avoir déjà un graphe relationnel IT dans des délais rapides, comprenant des données souvent inexploitées, dans le but de transformer la donnée en information, et l’information en connaissance.
Il devient alors possible d’avoir une vision globale à partir d’un point d’entrée unique.
Dans la solution SPECTRA, nous intégrons de l’intelligence artificielle, du machine learning, pour l’analyse sémantique. La machine est capable de comprendre vraiment le texte en profondeur. C’est-à-dire qu’à partir d’un point d’entrée, elle sera capable d’explorer toute la documentation criminelle ou non qui sera en relation dans la base de données.
Dans le respect des limites juridiques imposées par le droit comme la RGPD et modérera ou interdira aux enquêteurs de croiser différentes enquêtes en cours ou dossiers. Un avocat pourra toutefois demander à lever cette limitation s’il repère une coïncidence qui pourrait bénéficier à son client.
Ces questions de décloisonnement agitent le milieu professionnel face aux nouvelles criminalités. Certaines institutions en France y sont favorables, d’autres non.
SPECTRA permet de garantir le cloisonnement, applicable à tous les éléments du dossier. En cas de besoin, il peut être atténué car il y a des exceptions, si l’enquêteur en fait la demande à un administrateur et que cette demande concerne des pièces du dossier ou si cela concerne la victime, un mineur par exemple.
Cette limitation ne concerne que la France ; dans d’autres pays où nous sommes présents, ces restrictions n’existent pas forcément
Notre application SPECTRA a deux volets : un volet moteur de recherche sémantique et un volet analyse criminelle plus poussé pour les enquêteurs. Elle est très puissante et répond aux besoins d’un environnement complexe, exigeant, avec une obligation de connaissances spécifiques qu’on ne peut trouver nul part.
Par exemple à partir d’un point d’immatriculation, de voir la temporalité sur tous les éléments que nous avons dans notre documentation. Un numéro de téléphone, c’est tout de suite voir graphiquement les connexions et établir une cartographie.
A côté de cela nous intégrons aussi des éléments de traitement de langages en temps réel pour tenir compte des informations circulant entre l’AFP, les médias et le ministère de l’Intérieur et traiter de façon sémantique ces informations afin de pouvoir mettre à jour, intégrer de nouveaux faits comme des attaques cyber sur des hôpitaux.
Nous enrichissons ainsi nos solutions, nos ontologies avec le langage des communautés de hackers, les langages des organisations criminelles, à l’image des Hells Angels. On peut aussi intégrer des références d’armes, classées par calibres et catégories.
Six langues sont actuellement déployées, le russe et le roumain sont en projet.
Mais plus que les mots, ce sont les tournures de phrases et l'ambiguïté qui sont un véritable défi.
- Ex 1 : Mégane, la voiture, Mégane, prénom.
- Ex 2 : Paris, la Ville, Paris, le prénom, (Paris Hilton)
JD précise que si la part du traitement fait intervenir massivement les outils informatiques. Il n’en demeure pas moins que la question sur ce qui peut relever du traitement informatique et celle qui relève du travail humain, demeure légitime. En aucun cas l’humain ne doit être écarté. Il y a un travail de régulation qui doit venir de la part du législateur et des autorités.
Le traitement sémantique est aujourd’hui particulièrement puissant et nous pouvons avoir une véritable compréhension des phrases. Par exemple aujourd’hui, l’outil fait parfaitement la différence dans un échange téléphonique transcrit entre la ville de Fresnes et la maison d’arrêt de Fresnes. Ce qui n’a pas le même sens, ni les mêmes conséquences, si un ou plusieurs commissariats devaient lancer une série d’interrogatoires.
Nous pourrions aussi imaginer l’intégration d’autres sources et étendre ce domaine au monde carcéral, où les données ne sont pas exploitées. Les surveillants rédigent beaucoup de rapports et de notes qui ne remontent pas. Alors que l’on pourrait détecter de nombreux signaux faibles, comme des changements de comportements, qui peuvent être interprétés comme des signes de radicalisation.
Enfin, il faut avoir à l’esprit que toutes les informations viennent, proviennent, et sont stockées chez le client, à aucun moment, OPPSCIENCE ne fait transiter des données par ses serveurs.
Après ces éléments d’informations, JD simule une utilisation du logiciel sur une étude de cas fictive. A partir d’une plaque minéralogique, d’images, un texte.
Etude de cas : Un véhicule Z d’Espagne est à Paris. Il roule un peu vite. J’ai une nouvelle information : ce véhicule serait impliqué dans un attentat terroriste. Il semble que ce véhicule ait servi à faire un go-fast.
Etude de cas : Un véhicule Z d’Espagne est à Paris. Il roule un peu vite. J’ai une nouvelle information : ce véhicule serait impliqué dans un attentat terroriste. Il semble que ce véhicule ait servi à faire un go-fast.
Question : L’argent du go-fast a-t-il servi à financer quelque chose ?
- J’ai un numéro de compte bancaire.
- J’ai une nouvelle information que je croise avec d’autres informations.
- Je sélectionne cette partie qui parle de crime sur cette zone.
- Je creuse encore dans ma documentation opérationnelle pour voir si je n’ai pas des crimes qui sont détectés. Juste après ma remontée de drogue, j’ai de nouveaux points qui sont apparus.
- Je vais pouvoir continuer à creuser.
- J’ai des PV de surveillance qui m’ont permis de dire qu’un véhicule était à tel endroit, puis à un autre endroit.
- J’ai un document en provenance des services espagnols. “Ce serait vraiment un coup de chance si je retrouve le nom du propriétaire du véhicule”.
- Je vais pouvoir interroger cet individu qui est propriétaire de ce véhicule qui était dans un trafic de stupéfiants !!!
Autre défi : le temps
Un enjeu majeur de la complexité et de la masse d’informations est le temps nécessaire pour indexer des disques durs entiers et des mémoires de smartphones et les rendre disponibles auprès de tous les enquêteurs. Indexer un nouveau disque dur, c’est intégrer 1, 2, ou plusieurs Tera octets de données, indexer plusieurs disques c’est autant de temps, c'est-à-dire plusieurs jours, même si un disque dur est disponible le lendemain.
Ce n’est pas encore une action instantanée.
Consommation de temps-machine : indexer, compulser des millions de documents consomme beaucoup de temps-machine, et donc d’électricité. Quand on installe SPECTRA, il faut compter une semaine d’indexation. Ensuite il se déploie rapidement grâce à des serveurs avec des GPU. Pour optimiser le temps-machine, nous avons mis en place des protocoles et des méthodes, nous sommes notamment partis sur des logiques de blocs. Si un policier allemand souhaite consulter les documents, il saisit sa requête dans sa langue naturelle, sa requête est traduite en anglais et ensuite il va chercher le texte en français.
SPECTRA est modulable et adaptable en évolution constante, il est capable de répondre à des demandes spécifiques comme l’OSINT. Nos développeurs y travaillent et peuvent répondre dans les meilleurs délais par le biais de briques.
Vaincre les réticences.
Le mur de la RGPD et du respect de la vie privée est un cadre très important, car le contexte de l’investigation est méconnu. Cela fait peur. Il est donc plus confortable de s’abstenir de déployer une solution, que de lancer un chantier et trouver toutes les raisons pour ne pas le faire, même les plus petites, car derrière, il faut aussi former des personnes qualifiées.
On arrive à franchir ces barrières quand on arrive à définir le geste métier et que celui-ci est jugé comme acceptable pour le data officer, le compliance Manager et la direction générale.
Ce n’est pas encore une action instantanée.
Consommation de temps-machine : indexer, compulser des millions de documents consomme beaucoup de temps-machine, et donc d’électricité. Quand on installe SPECTRA, il faut compter une semaine d’indexation. Ensuite il se déploie rapidement grâce à des serveurs avec des GPU. Pour optimiser le temps-machine, nous avons mis en place des protocoles et des méthodes, nous sommes notamment partis sur des logiques de blocs. Si un policier allemand souhaite consulter les documents, il saisit sa requête dans sa langue naturelle, sa requête est traduite en anglais et ensuite il va chercher le texte en français.
SPECTRA est modulable et adaptable en évolution constante, il est capable de répondre à des demandes spécifiques comme l’OSINT. Nos développeurs y travaillent et peuvent répondre dans les meilleurs délais par le biais de briques.
Vaincre les réticences.
Le mur de la RGPD et du respect de la vie privée est un cadre très important, car le contexte de l’investigation est méconnu. Cela fait peur. Il est donc plus confortable de s’abstenir de déployer une solution, que de lancer un chantier et trouver toutes les raisons pour ne pas le faire, même les plus petites, car derrière, il faut aussi former des personnes qualifiées.
On arrive à franchir ces barrières quand on arrive à définir le geste métier et que celui-ci est jugé comme acceptable pour le data officer, le compliance Manager et la direction générale.
Conclusion : Un monde professionnel en évolution
Au cours des dernières années, de nombreux individus se sont orientés vers les métiers de l'analyse sans acquérir les compétences technologiques nécessaires, ils se retrouvent ainsi dépourvus d'outils de collecte, même à des échelons décisionnels cruciaux. Aussi étonnant que cela puisse paraître. Donner une identité sans contexte est encore plus compliqué.
En fait, ils sont complètement saturés, noyés.
En fait, ils sont complètement saturés, noyés.
OPPSCIENCE, c'est :
Site internet : https://oppscience.com/
70 salariés
Contrat avec le ministère de l’Intérieur.
Langues : français, anglais, arabe, Espagnol à venir : roumain, russe
Supports : ordinateur, tablettes
250 connecteurs développés. Répond aux standard MIP,
Points forts : création d’organigramme et dataviz
Respect de la RGPD
https://www.idemia.com/fr
https://www.veillemag.com/ESS-E-lance-un-nouveau-certificat-pour-former-les-futurs-professionnels-de-l-investigation-numerique_a4697.html
70 salariés
Contrat avec le ministère de l’Intérieur.
Langues : français, anglais, arabe, Espagnol à venir : roumain, russe
Supports : ordinateur, tablettes
250 connecteurs développés. Répond aux standard MIP,
Points forts : création d’organigramme et dataviz
Respect de la RGPD
https://www.idemia.com/fr
https://www.veillemag.com/ESS-E-lance-un-nouveau-certificat-pour-former-les-futurs-professionnels-de-l-investigation-numerique_a4697.html