Le renseignement via les « sources ouvertes » (OSINT) : une nouvelle discipline?
Jean-François LOEWENTHAL
Consultant associé d’Intelligences SARL, chercheur-associé au CF2R.
Le 5 avril 2006, Amnesty International rendait public un rapport sur les vols de la CIA (http://web.amnesty.org/library/Index/ENGAMR510512006). Ce document d’une quarantaine de pages fait la synthèse de tous les éléments à charge sur les avions utilisés par les Etats-Unis, dans le cadre de la guerre contre le terrorisme, pour transporter certains prisonniers de manière extra-judiciaire. Ce rapport est le fruit d’un travail de collecte, de recoupement et d’analyse de diverses données ouvertes. Ces données corrélées entre elles auront permis d’identifier certains vols affrétés par les autorités américaines. Citons par exemple les permis accordés aux avions civils (http://www.usaasa.belvoir.army.mil/CALP/CALPDec05.htm) et les données des vols internationaux (notamment : http://www.airfleets.net/flightlog/?file=recherche).
Nous ne préjugeons pas ici de la qualité des travaux d’Amnesty International. Mais force est de constater qu’un travail réalisé à partir de sources ouvertes aura réussi, d’une part, à produire des informations que l’on pourrait aisément croire non-ouvertes, d’autre part, à créer un événement médiatique d’ampleur internationale.
L’accroissement des possibilités de produire de l’information de qualité à partir des sources ouvertes influe directement sur le métier d’homme de renseignement. Diverses évolutions récentes viennent le confirmer. Par exemple, la CIA annonçait en novembre 2005 la création d’un Open Source Center (http://www.cia.gov/cia/public_affairs/press_release/2005/pr11082005.html). Ce centre reprend et augmente les capacités du FBIS (Foreign Broadcast Information Service) qui collecte et traduit les informations diffusées par les radios et journaux du monde entier1.
Les inestimables ressources des « sources ouvertes »
Pour tâcher d’en comprendre l’intérêt, il nous faut tout d’abord essayer de définir ce que l’on appelle « sources ouvertes ». Nous choisirons ici d’en prendre une définition restreinte, qui se rapprochera de la définition de l’information documentaire. Nous appelons « sources ouvertes » les sources d’informations accessibles à tous au moyen de médias spécifiques. Il est important de noter que l’accès à ces sources peut être payant (bases de données commerciales) ou non.
Nous excluons par contre toute information ou donnée récupérée, même ouvertement, dans le cadre d’une action qui ne serait pas ouverte à tout le monde. Ainsi un entretien, certes réalisé « le plus ouvertement du monde » – par exemple auprès d’un expert reconnu – ne sera pas ici considéré comme provenant d’une source ouverte.
Cette définition n’est pas unanimement partagée ; l’un des chantres de l’information ouverte, l’Américain Robert Steele, considère qu’un entretien réalisé de façon « transparente » – c’est-à-dire sans cacher son identité et en annonçant ses intentions – relève aussi de l’information ouverte. Fort de cette conception, il a récemment défié les services de renseignement américain en pariant qu’il obtiendrait de meilleurs résultats qu’eux, en n’utilisant que des sources ouvertes et en ne dépensant que 10 000 dollars par question posée (voir http://tinyurl.com/juaeh).
Notre définition, plus restrictive, inclue cependant tous les médias internationaux (presse, radio, télévision), la production mondiale de livres et tout ce qui est publié et accessible sur Internet. La montée en puissance et en ubiquité d’Internet a obligé tous les fournisseurs professionnels d’information à migrer vers le web. On ne trouve presque plus de bases de données commerciales dont l’accès n’est pas possible via la Toile.
De même, la facilité de publication de l’information sur le web est maintenant triviale, au point d’avoir créé son propre vocabulaire, tel les blogs. Toute personne ou organisation peut publier sur la Toile. Et le web n’est pas le seul média que recouvre Internet : les forums, les listes de discussions par courrier électronique, les podcasts et autres diffusions multimédia font exploser la possibilité de trouver de l’information sur Internet.
Pour la grande majorité, cette information correspond bien à notre définition de l’information ouverte, commerciale ou non. Internet est donc un moyen unique d’accès à une multitude de sources d’informations, indépendantes et hétérogènes. Indépendantes, car deux informations ou données issues d’Internet n’ont pas de raison a priori de provenir de la même origine. Hétérogène, car l’on y trouve toutes les qualités : de l’information mise à disposition par une personne privée, des informations institutionnelles de grandes entreprises, des informations à valeur légale (comme les registres du commerce français, britannique), etc.
L’intérêt des sources ouvertes provient d’ailleurs de cet aspect multidimensionnel : la possibilité de recouper des informations hétérogènes. Par exemple, si nous nous intéressons à une entreprise aéronautique française, nous avons la possibilité :
- d’obtenir ses documents déposés aux greffes et donc d’identifier les actionnaires et les gérants (www.infogreffe.fr),
- d’identifier de fait les entreprises dans lesquelles ces gérants ont d’autres participation ( www.societe.com),
- d’obtenir les CV de certains de ces gérants (base de biographies de www.lesechos.fr et recherche sur le web avec Google),
- d’identifier des employés de l’entreprise avec des sites d’anciens collègues, comme copainsdavant.linternaute.com,
- d’étudier la R&D de l’entreprise au travers de ses dépôts de brevets (fr.espacenet.com),
- etc.
Les applications en matière de renseignement
Mais si l’on comprend l’intérêt d’une telle démarche, par exemple pour une entreprise civile qui voudrait mieux connaître un partenaire ou un concurrent, quel peut en être l’intérêt pour un homme de renseignement, en particulier dans un cadre militaire ? La réponse vient d’elle-même lorsque l’on constate l’imbrication toujours plus étroite des enjeux civils et militaires sur les théâtres d’opération. En matière de renseignement, il ne suffit plus de compter les divisions et d’identifier les insignes des unités. Il faut identifier et cribler chacun des acteurs que nos forces vont rencontrer. Or ces acteurs sont aussi des entreprises, des ONG ou des personnes privées, tous susceptibles d’avoir laissé des traces de leurs actions, de leur histoire, dans une des innombrables sources de données électroniques.
Obtenir ces données ne permettra peut-être pas de répondre à l’ensemble des questions soulevées au sujet de tel ou tel acteur. Par contre, les éléments obtenus permettront, au minimum, de mieux cibler les autres actions non ouvertes jugées nécessaires. Ainsi, les campagnes de privatisation des entreprises du Kosovo font entrer dans cette province des nouveaux acteurs industriels, tous justifiables d’un criblage initial au moyen de ces sources ouvertes.
De façon générale, épuiser les possibilités des sources ouvertes avant de lancer sur une cible des moyens de collecte « non ouverts » devrait être un réflexe systématique. Au pire, les données recueillies permettront de mieux cibler les actions futures ; au mieux, les données s’avèreront suffisantes pour permettre de décider.
L’acquisition de données et d’informations ouvertes ne pose plus aujourd’hui de problèmes techniques : les outils développés ces dix dernières années permettent de maîtriser la phase « collecte » du cycle du renseignement. Moteurs de recherche, agrégateurs de bases de données, indexeurs locaux, métamoteurs, etc., tous ces outils servant à la recherche automatisée fonctionnent parfaitement.
Les autres phases du cycle, adapté au contexte des sources ouvertes, nécessitent aussi chacune des outils particuliers. Les phases d’orientation, de diffusion des travaux et éventuellement de travail collaboratif entre analystes, bénéficient toutes également des développements effectués, au cours de ces dernières années, pour les grandes entreprises et leurs intranets.
Certains de ces outils – comme par exemple les produits de la filiale de Thalès, Arisem, ou encore le produit Tropes de la société Acetic – prennent le parti d’une intelligence embarquée, qui permet l’analyse sémantique des textes. L’utilisateur se base alors sur ces logiciels pour accélérer sa prise en compte des informations. D’autres font, au contraire, le pari de laisser toute l’intelligence à l’utilisateur. Ainsi des logiciels, issus du monde de l’analyse criminelle, comme Analyst’sNotebook ou Visual Analystics, vont permettre de représenter et de décortiquer les relations existant entre des personnes, des entreprises et des évènements préalablement identifiés dans un corpus. Cela signifie que c’est à l’utilisateur de remplir cette base de connaissance : l’outil n’est là que pour l’aider à traiter une masse très significative d’informations, lui permettant en particulier de détecter dans cette « mine » des régularités ou des organisations qui n’auraient pas été visibles à l’œil nu.
Toutefois, il manque encore, pour un traitement efficace de l’ensemble des informations issues des sources ouvertes, des outils capables d’assurer la structuration automatique des informations et leur homogénéisation. Des logiciels intéressants sont actuellement à l’étude : transcription automatique des conversations orales, traduction automatique en de nombreuses langues, identification automatique des noms propres et des liens existants entre personnes – des produits de structuration de textes, comme ceux de la société française Temis ou de l’américaine SRA (Netowl) sont particulièrement intéressants -, identification et classification automatiques d’images, etc.
Bien évidemment, ces outils, s’ils voient le jour, ne serviront pas qu’à traiter des sources ouvertes. Ils devraient permettre de rendre toutes les sources d’informations inter-opérables et « inter-analysables ». Le Graal de l’analyste, en quelque sorte.
- 1 Le FBIS est en partie armé par les Britanniques au travers du BBC Monitoring Service.