1. Open data
Open data : définition normalisée
https://www.lebigdata.fr/open-data-definition
Le terme Open Data désigne des données auxquelles n’importe qui peut accéder, que tout le monde peut utiliser ou partager. Les critères essentiels de l’ Open Data sont la disponibilité, la réutilisation et la distribution, et la participation universelle. Il s’agit là de la définition donnée par l’Open Knowledge Foundation en 2005.
Disponibilité et accès : Les données doivent être pleinement accessibles, moyennant un coût de reproduction raisonnable. De préférence, elles se téléchargent sur Internet. La forme doit être confortable et modifiable.
Réutilisation et redistribution : Les données doivent être fournies sous des conditions permettant la réutilisation et la redistribution, incluant le mélange avec d’autres ensembles de données.
Participation universelle : Tout le monde doit être en mesure d’utiliser, de réutiliser et de redistribuer les données. Il ne doit y avoir aucune discrimination concernant les fins d’utilisation, ou contre des personnes ou des groupes. Par exemple, des restrictions non commerciales qui empêchent l’utilisation commerciale, ou les restrictions d’usage à certains secteurs, ne sont pas compatibles avec l’ Open Data.
Ces trois critères sont l’essence de l’ Open Data, car ils autorisent l’interopérabilité. L’interopérabilité désigne la capacité de différentes entreprises ou systèmes à travailler ensemble. En l’occurrence, l’interopérabilité est la capacité de mélanger différents ensembles de données.
On peut trouver, par exemple, sur le site https://opendata.lillemetropole.fr/ un ensemble de données librement exploitable concernant la métropole lilloise.
Exercice 1 : Lire des données dans une table.
a) Ouvrir le tableau de données ci-dessous :
Nombre de validations par arrêts de métro et de tramway
Un tableau de données présente des données sur des objets.
Chaque ligne représente un objet.
Chaque colonne représente les valeurs pour certains descripteurs ( on parle aussi de champs ou de propriétés ou de valeurs ).
Dans le tableau que nous allons étudier :
– les lignes représentent des stations de métro ou de tram,
– les colonnes représentent différents descripteurs : Mode ( type de la ligne :M1,M2,M1 et M2,Tram), Nom de la station, Mois considéré.
b) En consultant ce tableau de données, répondre aux questions suivantes :
– déterminer le nombre de validations pour la station Rihour au mois de février 2016,
– déterminer le nombre de validations pour la station Pont de Bois en Août 2016,
– déterminer le nombre de validations pour la station Canteleu en Janvier 2016,
– déterminer à quelle ligne appartient la station Colbert.
– le nombre total de stations sur le réseau de la MEL.
Correction :
– déterminer le nombre de validations pour la station Rihour au mois de février 2016 :
265 087 validations
– déterminer le nombre de validations pour la station Pont de Bois en Août 2016 : 78 604 validations
– déterminer le nombre de validations pour la station Canteleu en Janvier 2016 :
65 174 validations
– déterminer à quelle ligne appartient la station Colbert.
La station Colbert appartient à la ligne M2.
– le nombre total de stations sur le réseau de la MEL:
97 stations au total sur l’ensemble du réseau.
Exercice 2 : Trier des données.
Une table de données présentent souvent des outils de tri qui permettent de classer par ordre croissant ou décroissant les valeurs associées à un descripteur.
Ici, la table de données en ligne permet de trier le nombre de validations pour chaque mois proposé.
En utilisant les outils de tris proposés par cette table de données en ligne :
1) Déterminer la station ayant eu le plus de validations en Janvier 2016.
2) Déterminer la station ayant eu le moins de validations en Février 2016.
Correction :
1) La station ayant eu le plus de validations en Janvier 2016 est la station :
GARE LILLE FLANDRES M1 et M2 avec 1 165 512 validations.
2) La station ayant eu le moins de validations en Février 2016 est la station PONT DE WASQUEHAL avec 2 545 validations.
Exercice 3 : Filtrer des données et les trier.
Pour mieux exploiter les données d’une table, on peut utiliser des filtres qui permettent de ne considérer que certaines données.
La table en ligne propose un outil filtre simple.
En utilisant les outils de filtres et de trier, déterminer :
1) La station de la ligne M2 ayant eu le plus de validations en Février 2016.
2) La station de Tram ayant eu le moins de validations en Mars 2016.
Correction :
1) La station de la ligne M2 ayant eu le plus de validations en Février 2016 :
Il s’agit de la station LILLE PORTE DE DOUAI avec 209 177 validations.
2) La station de Tram ayant eu le moins de validations en Mars 2016.
PONT DE WASQUEHAL avec 2 871 validations.