Données immobilières
Détection d’anomalies dans les annonces immobilières
- Bien que souvent critiquées, les annonces immobilières représentent une source incontournable d’informations pour analyser le marché immobilier en temps réel.
- Quelles sont les principales anomalies présentes dans les annonces immobilières et quels sont leurs effets sur les distributions des prix et loyers ?
À travers deux cas d’étude, découvrez dans cette note comment l’algorithme de consolidation des données Yanport permet de filtrer les anomalies et d’obtenir des statistiques précises sur le marché immobilier. En deux chiffres, ce dernier permet par exemple de filtrer près de 70% des anomalies de localisation et jusqu’à 90% des annonces de colocation.
Cette consolidation des données permet ainsi de fournir des moteurs d’estimation précis des loyers et des prix de vente ainsi que des outils d’analyse et d’étude du marché immobilier basés sur une donnée de qualité.
Les différents portails sur lesquels professionnels et particuliers publient des annonces constituent un aperçu du marché immobilier en temps réel. Ils représentent une source de données précieuse puisqu’il n’existe pas d’équivalent public permettant un suivi du marché immobilier en quasi instantané. De par l’origine des annonces, différents types d’erreurs et d’incohérences peuvent émerger. Ainsi, afin de pouvoir les exploiter au mieux, il est nécessaire de passer par un processus rigoureux de consolidation des données.
Les origines des anomalies dans les annonces sont multiples, elles peuvent néanmoins être résumées en trois catégories principales et peuvent provenir :
- de la difficulté d’agréger des données à partir de portails qui structurent les données différemment,
- d’erreurs ou d’imprécisions volontaires,
- d’erreurs ou d’imprécisions involontaires.
Effets possibles des anomalies
Les anomalies peuvent être classées en deux catégories en fonction de la sévérité de leurs impacts sur les statistiques et indicateurs. Certaines anomalies vont en effet induire des biais plus importants sur les indicateurs et autres statistiques résumées et ainsi affecter l’ensemble des analyses découlant de ces données.
La méthode utilisée par Yanport vise avant tout à maîtriser les anomalies dont l’impact potentiel est élevé. Ces dernières regroupent, par ordre d’importance :
- les anomalies de catégorisation liées au marché du neuf,
- les anomalies de localisation,
- les anomalies de colocation,
- un ensemble d’anomalies plus rares mais aux effets potentiels importants telles les annonces :
- de viagers,
- de ventes aux enchères,
- de recherche de biens,
- dont les caractéristiques sont excessivement atypiques.
Cas d’étude #1 : Colocations
Pour ce premier cas d’étude, nous nous intéressons aux anomalies de type “colocation”. Ces dernières représentent environ 3% des annonces de location dans les grandes villes et sont susceptibles d’influencer les indicateurs (e.g. loyer au m²) ainsi que notre moteur d’estimation. Elles sont en effet généralement caractérisées par des loyers au m² anormalement bas ou élevés. Par exemple, certaines annonces sont publiées avec la surface du logement entier (e.g. un 4 pièces de 100 m²) mais avec un loyer pour une seule chambre. Or les annonces de colocation sont particulièrement courantes pour les grandes surfaces dans les grandes villes comme l’illustre la Figure 1.
Une conséquence possible de ces anomalies serait alors de tirer les loyers “vers le bas” pour les grandes surfaces. La Figure 2 met en évidence cet effet : la courbe bleue représente les loyers au m² médians obtenus à partir des données brutes pour les logements de cinq pièces et plus à Lille. La courbe rose, les mêmes loyers au m² après filtrage des colocations. Le filtrage de ces annonces permet ainsi de réduire le biais dans les loyers observés.
Cas d’étude #2 : Erreur de localisation
Pour ce second cas d’étude, nous nous intéressons aux anomalies dites de “localisation”. Ces dernières sont particulièrement présentes dans les annonces de maisons en vente, principalement dans les grandes villes. Les taux observés sont d'environ 17.5% en moyenne pour les villes de plus de 50.000 habitants contre environ 7% dans les villes de moins de 10.000 habitants.
Le principe ? Les annonceurs déclarent la maison à vendre dans la ville principale de l’agglomération pour augmenter sa visibilité lorsqu’un acheteur potentiel utilisera le moteur de recherche du portail.
Nous focalisons ici sur un cas d’étude particulier, celui des maisons en vente à Paris (75). Ce dernier représente un cas extrême puisque plus de la moitié des maisons situées à Paris, selon les données d’annonces, sont en réalité situées en extérieur (par exemple, à 1h de la gare Montparnasse). Les prix au m² dans les données sont représentés sur la Figure 3, la distribution bi-modale qui apparaît très clairement ici est symptomatique de l’effet des mauvaises localisations. On peut noter que considérer naïvement les prix observés sur cette zone conduirait à conclure que le prix médian est d’environ 6.800€/m² sur les arrondissements parisiens (ligne verticale bleue en Figure 3).
L'application de l’algorithme de détection des anomalies permet de catégoriser les annonces, et ce, à différents niveaux de confiance. Les résultats après filtrage sont indiqués en Figure 3 (en fonction de la sévérité du seuil). On peut alors constater que le filtrage des anomalies de localisation permet de retrouver des niveaux de prix médians raisonnables (environ 12.000 €/m² sur l’ensemble des arrondissements parisiens - cf. ligne verticale verte en Figure 3).
Ce cas d’étude permet de mettre également en évidence une propriété importante de l’algorithme de détection d'anomalies développé par Yanport, à savoir la possibilité de considérer les anomalies à différents niveaux de confiance (anomalies possibles, probables ou très probables). Cette propriété permet en effet d’adapter la détection aux différents usages; un filtrage strict peut par exemple être appliqué lors du calcul d’indicateurs de marché qui demande une donnée de très bonne qualité, alors qu’un filtrage plus tolérant peut être appliqué lorsqu’il s’agit par exemple de prospection.
📄 Pour télécharger cette note au format PDF, cliquez ici