Vous avez décidé d’acheter des données GPS de géolocalisation et de créer votre propre système d’analyse des mouvements de population.
Roofstreet est à la fois collecteur de données (doc.veery.io) et acheteur de données auprès de partenaires de médias et du drive-to-store, nous allons donc vous expliquer ici les 10 points sur lesquels vous devrez rester attentif.
Identifier si les données souhaitées sont des données personnelles
Une donnée est dite personnelle dès qu’elle peut être rattachée à un individu spécifique. Dans la majorité des cas, il faut que les données soient liées à un identifiant unique, quel qu’il soit, pour être considérées comme des données personnelles.
N° d’utilisateur | Remarque |
1 | Aime le chocolat |
2 | A trois enfants |
3 | Est client chez nous |
Exemple : La simple présence d’un identifiant interne (N°) pour les utilisateurs suffit à qualifier les données en « données personnelles » et donc sujettes au RGPD
Cependant, pour la géolocalisation GPS (ou toute autre géolocalisation), les données peuvent être considérées comme « personnelles » même si aucun identifiant de smartphone ou de personne n’est présent.
Exemple 2 : Une géolocalisation dont la précision est supérieure à 200m nous apprend quelque chose de la vie privée de l’habitant de cette maison : c’est donc une donnée personnelle, même sans identifiant de personne.
Il est donc important que la personne responsable des achats s’informe auprès des fournisseurs de données afin de vérifier que l’achat de ces données GPS ne vous expose pas à des risques de mise en demeure, voire à une amende de la CNIL. Nous vous conseillons d’impliquer votre DPO dans le processus d’achat.
Les meilleurs fournisseurs de données brutes de géolocalisation doivent garantir que :
- Les personnes géolocalisées ont eu le choix de refuser ou d’accepter cette géolocalisation ;
- Le nom de votre entreprise et la raison de la collecte ont bien été mises à disposition de l’utilisateur ;
- Le message qui s’est affiché à l’écran de l’utilisateur respecte bien les obligations de clarté. La CNIL pouvant en cas de contrôle vous demander une capture de l’écran, ou une simulation de l’écran présenté à l’utilisateur ;
- L’utilisateur n’a pas changé d’avis depuis son acceptation.
Ces fournisseurs vont pouvoir vous donner accès à des rapports liés à leur CMP permettant de répondre à toute question lors d’un audit de la CNIL.
Exemple 3 : Un écran de consentement en accord avec les règles CNIL et RGPD. Vous ne pourrez acheter la donnée que si le nom de votre entreprise est indiqué dans la « liste des partenaires » au moment de la collecte.
Connaître les limites d’utilisation des données GPS
Quand vous achetez des données GPS, elles ont été collectées par des applications pour qui les revenus de la vente de données permettent de financer le développement de leurs activités.
Comment ces données sont-elles collectées ? Bien souvent grâce à une sonde fournie par le vendeur de géolocalisation (sonde parfois appelée SDK), qui est ensuite intégrée dans l’application même. Une fois intégrée et après l’accord de l’utilisateur, cette sonde va récupérer en moyenne 300 géolocalisations par jour par smartphone.
Il est important de noter que lorsque l’on parle de « géolocalisation GPS collectée par SDK », il faudrait plutôt dire « géolocalisation GPS et réseau collecté par SDK ». En effet, la géolocalisation GPS consommant énormément d’énergie, si la géolocalisation reposait uniquement sur du GPS, la batterie des smartphones se viderait en quelques heures. Les SDK s’aident donc également des géolocalisations connues des bornes Wifi et des antennes 3G/4G.
Cela impacte alors les temps moyens entre deux géolocalisations. La moyenne est de 5 minutes, mais selon la qualité et la typologie des réseaux de communication de la région (3G/4G,Wifi) cette moyenne peut varier de 1 à 40 minutes.
Afin de palier à ces variations, il est nécessaire de traiter ces données grâce à des algorithmes capables de la nettoyer et d’extraire les informations pertinentes. C’est ce que Roofstreet fait avec son Behaviour Route Matcher, dont nous avons déposé le brevet en 2018.
Exemple 4 : Les géolocalisations éparses de 300 Lyonnais ont été transformées en Trajets par le Behaviour Route Matcher de Roofstreet qui a observé les déplacements sur plusieurs jours pour transcrire les routes préférées des personnes
Sans cette opération, la carte des géolocalisations, même transformée en « carte de chaleur », ne vous indiquerait pas les chemins empruntés, mais uniquement les lieux d’arrêts fréquents. Et même pour ce cas d’usage, les lieux ne pourront être comparés entre eux, car la quantité de géolocalisation par lieu va dépendre de la couverture réseau de la zone.
Notre processus Behaviour Route Matcher permet alors d’obtenir une régularité et une précision des comptages de flux inégalée, qui viennent concurrencer (et parfois dépasser) la précision des comptages manuels.
Dans la version la plus récente de notre SDK, le Behaviour Route Matcher est intégré directement dans les smartphones, et ce pour éviter de recevoir les données personnelles sur nos systèmes.
Se renseigner sur la précision des données
Les données GPS sont réputées pour être d’une extrême précision allant jusqu’à 10m sur smartphone. Cependant, ce chiffre est à prendre avec précaution.
Exemple 5 : Capture de Google Maps sur Android. Le point bleu est notre position probable, et le cercle bleu est la précision indiquée par les capteurs GPS. En réalité nous étions sur le trottoir en face.
En effet, 10m est la précision obtenue par un smartphone dans les conditions idéales (en extérieur, pas de haut bâtiment), mais en réalité plus de 50% des géolocalisations collectées par SDK ont une précision au-delà de 50m, et 20% au delà de 200m.
Notre algorithme Behaviour Route Matcher utilise toutes les géolocalisations (de 10 à 200m de précision), et donne alors plus d’importance aux géolocalisations précises qu’aux autres.
Exemple 6 : Fonctionnement du Behaviour Route Matcher pour un trajet réalisé deux fois par une personne. Il a calculé le trajet en vert, et plus ce trajet se répète plus nous serons assurés d’avoir obtenu le trajet préféré de la personne.
La précision indoor des données GPS
Même si les SDK collectant les géolocalisations indiquent une altitude pour chaque mesure, la présence de plusieurs couches de béton entre un smartphone et les satellites GPS, vient rendre cette indication trop imprécise pour l’utiliser.
Donc, si votre cas d’usage concerne l’intérieur d’un centre commercial ou d’une tour de bureau, il sera alors préférable de vous tourner vers les systèmes de géolocalisation indoor qui viennent apporter la précision dont vous aurez besoin.
Si par contre vous voulez mesurer l’affluence aux portes d’entrée du bâtiment, les données GPS peuvent vous y aider.
Attention à la représentativité
Il n’y a à ce jour aucun acteur qui peut prétendre avoir 100% (et même pas 50%) de la population. Si certains opérateurs télécoms s’en approchent, ils n’ont pas obtenu le droit (consentement de leurs utilisateurs) de proposer des géolocalisations GPS sur le marché.
Les applications les plus téléchargées (en France) atteignent 10 à 15 millions de smartphones, mais avec au maximum 40% d’utilisateurs « géolocalisés ».
Toutefois en additionnant les réseaux d’applications de plusieurs éditeurs et collecteurs de géolocalisations, il est possible d’atteindre une représentativité de 40% de la population Française couverte.
Cette représentativité n’est toutefois pas équitablement distribuée. D’une région à l’autre, cette représentativité varie du simple au triple, et chez Roofstreet, nous appliquons un coefficient de correction local (par zone IRIS d’habitation) pour obtenir des comptages cohérents.
N’hésitez pas à vous renseigner auprès de votre vendeur de données GPS sur les caractéristiques des utilisateurs de l’application (l’âge, le genre et les catégories socio-professionnelles). Ces éléments vous seront utiles pour définir sur les biais de représentativité et donc obtenir des données statistiques précises.
Bien estimer le budget associé à l’achat de ces données
S’il est aujourd’hui possible d’acquérir, sous de nombreuses conditions dont celles imposées par le RGPD et la CNIL, des données pour faire des statistiques de mobilité, le prix appliqué se chiffre en dizaines de milliers d’euros par mois.
La durée de rétention de ces informations fixée par le CNIL est limitée de 1 à 3 mois maximum. Votre budget « Data » va rapidement atteindre des sommets. Cependant le coût d’acquisition reste bien inférieur aux coûts de traitement de ces données.
Un budget infrastructure conséquent
En effet, plusieurs millions de smartphones générant près 300 géolocalisations chaque jour vont venir significativement impacter votre budget infrastructure.
Afin de réaliser des statistiques sur des milliards de données géographiques, il faut déjà être capable de les stocker, les compter, les corriger, etc. Les solutions de gestion de données géographiques sont très vite dépassées par ce volume de données qui se mesure en dizaines de Terrabytes.
Un droit de conservation limité
Comme votre droit de conservation des données personnelles est limité à parfois un mois, vos équipes devront prévoir tout un travail d’anonymisation intégrale des données (transformer les données personnelles en données statistiques) dans cette période.
À l’issue de ce délai, vous avez obligation de supprimer les données sources, et il faudra alors vous assurer que les données statistiques répondent à tous vos cas d’usages, car vous ne pourrez plus les corriger sans les données sources.
Cette difficulté technique pour votre équipe peut rapidement devenir un point bloquant. Pour traiter aussi rapidement un volume aussi important de données, il faut créer une infrastructure de plusieurs dizaines voire centaines de serveurs.
Heureusement, le Cloud Computing le permet, mais cela demande une fois de plus de prévoir un budget très conséquent.
Attention aux réseaux souterrains
Nous avons déjà évoqué l’impossibilité d’utiliser le paramètre « altitude » fourni par certains SDK. Dans une ville comme Paris, avec un réseau très dense de métro, faire la différence entre une personne dans un point de vente ou dans la station de métro sous ce même point de vente peut être ardu.
C’est une opération qui est faite par notre Behaviour Route Matcher. Cette IA nous indique pour chaque trajet, la vitesse et la direction sur chaque tronçon de chemin, et fait correspondre ces vitesses avec les cartes des réseaux routiers et ferroviaires.
Une fois la différence faite, notre système peut aisément compter et différencier deux types de données piétons : les piétons qui sont en surface, et les piétons qui sont en souterrain. Pour les piétons dans des stations de métro, nous indiquons « ferroviaire » ce qui évite de les confondre avec les chalands en souterrain.
Exemple 7 : Flux de données piétons à la station de RER Auber: il y a 50 fois plus de personnes en souterrain qu’en surface.
Puis-je acheter des données de géolocalisation chez Roofstreet ?
Non. Nous ne proposons pas de données de géolocalisations GPS brutes, tout simplement parce que nous ne vendons pas de données personnelles.
Au vu des nombreuses difficultés que nous vous avons exposé ci-dessus, nous pensons que la majorité des acteurs du Retail ont besoin d’un accès plus direct et immédiat (et moins cher) à ce que les données GPS peuvent nous apprendre.
Nous avons donc mis au point une plateforme, orientée pour les Retailers, et nous la faisons évoluer chaque jour.
Pour les réseaux de Retail les plus ambitieux (et aussi pour les professionnels du géomarketing) nous avons mis au point un API (dev.retail.roofstreet.io) qui vous permet de récupérer toutes les statistiques que nous fabriquons, et de les intégrer directement dans vos applications.
A travers son API, Roofstreet fourni des données piétons, données de comptages de véhicules et des détails sur les zones de chalandises adaptées aux besoins des Retailers.
Ce qu’il faut retenir de l’achat de données GPS
Voici les différents points de vigilance avant tout achat de données de géolocalisation :
- Identifier si les données souhaitées sont des données personnelles ;
- Connaître les limites d’utilisation des données GPS ;
- Se renseigner sur la précision des données (indoor) ;
- Attention à la représentativité ;
- Bien estimer le budget associé à l’achat de ces données (achat, infrastructure et traitement des données) ;
- Attention aux réseaux souterrains.
Si vous souhaitez en savoir plus sur les modalités d’utilisation de notre plateforme ou de notre API, n’hésitez pas à nous contacter.
Vous pouvez également continuer à vous renseigner sur les différents cas d’usages des données GPS pour le retail ou sur les différentes solutions d’analyse géomarketing existantes sur le marché.
[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]