Laisser parler les données : applications du Machine Learning en Économie
Pablo Rodriguez est étudiant en quatrième année à l'ENS de Lyon en Economie, actuellement en prédoc à Stanford Graduate School of Business. Il s'intéresse à des sujets à la croisée de l'économie du travail et de l'économie publique.
Résumé
Le Machine Learning est une technologie d'intelligence artificielle qui offre de nombreux outils aux économistes. Il permet des avancées non seulement méthodologiques, mais aussi conceptuelles. En effet, le Machine Learning rend possible l'utilisation de nouvelles bases de données, inexploitables avec les méthodes traditionnelles. Mais il ouvre également la voie à la résolution de nouveaux problèmes, où l'on laisse les données parler afin de prédire certains événements.
Introduction
Le Machine Learning (ou apprentissage automatique) est une technologie d'intelligence artificielle permettant aux ordinateurs d'apprendre par eux-mêmes, sans programmation préalable explicite.
Les premiers programmes « intelligents », c'est-à-dire capables d'apprendre, se développent dans les années 1950, peu de temps après le test imaginé par le mathématicien Alan Turing pour déterminer si une machine est capable d'imiter la pensée humaine. Toutefois, les progrès de l'intelligence artificielle ne s'accélèrent qu'à partir des années 1990, grâce à l'augmentation de la puissance de calcul des ordinateurs et à l'essor d’Internet, qui permet d'accéder à un volume de données inédit. Le Machine Learning reposant sur l'utilisation de probabilités statistiques, il nécessite en effet des flux de données à analyser très importants. Son développement est donc lié à celui du Big Data. De nos jours les applications du Machine Learning sont de plus en plus présentes dans notre quotidien : Facebook est capable de reconnaître des visages sur les photos, Siri et Google peuvent comprendre la voix de leurs utilisateurs, et les algorithmes [1] des moteurs de recherche peuvent prédire les mots que nous tapons sur le clavier avant même que nous ayons fini de les écrire. Le développement constant du Machine Learning depuis les années 1990 n'est pas passé inaperçu aux yeux des économistes, qui s'intéressent de plus en plus aux avancées méthodologiques que ces outils permettent dans l'analyse empirique. Mais que font exactement les algorithmes de Machine Learning pour intéresser autant les économistes ? S'agit-il de méthodes conventionnelles, déjà présentes dans la boîte à outils des économistes, appliquées à de plus grandes bases de données ? Et s'il s'agit au contraire de nouveaux outils, comment les économistes peuvent-ils en faire usage ?
L'objectif de cette contribution est de présenter la façon dont les économistes réfléchissent aux outils offerts par le Machine Learning et se les approprient. L'argument central de cet article est double : le Machine Learning propose une ample gamme de nouveaux outils aux économistes pour résoudre des problèmes habituels dans la discipline (Athey et Imbens, 2019) ; le Machine Learning permet aussi de répondre à de nouvelles questions pour lesquelles les outils conventionnels sont inadaptés (Mullainathan et Spiess, 2017).
L'usage du Machine Learning se concentre sur une tâche spécifique : la prédiction. Plus particulièrement, il s'agit de réussir à prédire une variable y à partir de l'observation d'une variable x. L'approche la plus répandue en économie et, spécifiquement, en économétrie, consiste à essayer de décrire un modèle sous-jacent qui générerait les données que l'on observe empiriquement, de telle sorte que l'on pourrait estimer un paramètre (appelons-le β) qui explique y en fonction de x. Formellement on peut écrire que y= βx. L'objectif de l'économiste est donc d'estimer la valeur de β, afin de comprendre comment les variations de x affectent y.
Le Machine Learning suit une voie différente, adaptée à des questions où le problème central est de prédire l'issue d'un processus en observant les variables qui seraient en mesure de le générer. De quelles questions parlons-nous dans ce cas ? Sans en faire une liste restrictive, on pourrait penser à trois catégories de questions : (i) les questions où de nouveaux types de données permettent de prédire une variable, comme par exemple l'usage de l'imagerie spatiale pour prédire le niveau de production d'un territoire ; (ii) les questions où il faudrait prédire les conséquences des politiques publiques, par exemple pour prédire quel est l'impact de l’embauche d’un nouveau professeur dans une école ; (iii) les questions où l'on veut empiriquement tester une théorie qui est purement prédictive, par exemple pour tester l'hypothèse des marchés efficients selon laquelle il est impossible de prédire les prix des actifs (Fama, 1995). Il s'agit donc davantage de laisser parler les données (prédire) que de trouver un modèle qui expliquerait ces données (estimer).
Comment fonctionne le Machine Learning ?
L'objectif principal du Machine Learning est de prédire une variable y à partir d'une ou de plusieurs variables x. Pour ce faire, l'idée est de construire des algorithmes qui se comportent de façon intelligente et qui puissent apprendre par eux-mêmes la valeur que doit prendre y en regardant les valeurs de x. Pour apprendre, les algorithmes utilisent des méthodes empruntées aux mathématiques et aux statistiques, qui leur permettent de dégager une fonction f(x) telle que f(x)=y. Souvent, ces différentes fonctions f(x) sont associées à un algorithme précis de Machine Learning. C'est à l'économiste de choisir l'algorithme qu'il pense le plus approprié pour traiter sa question de recherche, ou bien d'inventer le sien en combinant différents modèles.
Il y a deux grandes tâches de prédiction qu'un modèle peut réaliser. La première est la régression. La régression permet de prédire des variables y continues. La deuxième tâche est la classification. La classification permet de prédire des variables y dont les valeurs sont catégorielles, par exemple 1 et 0, ou bien rouge et noir. Pour faire de la classification, on a besoin d'avoir au moins deux catégories. En revanche, il n'y a pas besoin d'imposer une limite aux catégories : un algorithme de Machine Learning peut prédire une quantité infinie de catégories tant qu'il peut apprendre à reconnaître ces différentes catégories. Il est important de noter que l'on peut toujours passer de la régression à la classification, si les données le permettent. Imaginons que nous avons une base de données qui indique le niveau de revenu de plusieurs individus ainsi que leurs caractéristiques socio-économiques. Nous voudrions prédire quel sera le niveau de revenu d'un individu donné en fonction de ses caractéristiques socio-économiques. La tâche ici est donc une régression puisque le niveau de revenu est une variable continue. Cependant, il se peut que parler en termes absolus du niveau de revenu ne soit pas assez indicatif du niveau de richesse d'un individu. Il serait peut-être alors judicieux de diviser cette distribution de revenus en déciles : on pourrait bien distinguer les 10 % les plus riches et les 10 % les plus pauvres, par exemple. En faisant cela, nous transformons notre problème de régression en un problème de classification.
De façon similaire, on peut distinguer deux grandes familles d'algorithmes de Machine Learning selon leur type d'apprentissage : l’apprentissage supervisé d’une part, l’apprentissage non supervisé d’autre part. Dans le cas de l'apprentissage supervisé, on donne à l’algorithme un certain nombre d’exemples à partir desquels apprendre qu'une certaine valeur de x est associée à une certaine valeur de y. En reprenant notre premier exemple, on montre à l'algorithme quelles caractéristiques socio-économiques permettent de classer un individu dans le premier décile, de telle sorte que l'algorithme puisse déduire la fonction f(x) qui lie les caractéristiques socio-économiques à un décile donné. D'autre part, il existe l'apprentissage non supervisé. Dans ce cas, l'algorithme doit par lui-même apprendre que certaines valeurs de x sont associées à une valeur y qu'il déduit sans assistance de l'économiste. Imaginons maintenant que nous voulons que notre algorithme reconnaisse des villes différentes (par exemple : une ville industrielle ou une place financière) à partir de différentes caractéristiques. L'algorithme doit apprendre par lui-même qu'une place financière est plus dense qu'une ville industrielle, ou qu'une place financière concentre des services financiers (banques, assurance, fonds d'investissement) et une ville industrielle des usines différentes. L'algorithme crée des regroupements (‘clusters’ en anglais) en fonction de ce qu'il observe dans les données et identifie ainsi différents types de villes sans que l'économiste introduise explicitement des concepts bien définis.
Pour tester la performance d'un algorithme, et donc pour que l'algorithme fasse lui-même des prédictions, il faut diviser la base de données en deux échantillons. Le premier échantillon est l'échantillon d'entrainement (‘train sample’) où l'on apprend à l'algorithme à reconnaître la relation qui lie les variables x à la variable y. Le deuxième échantillon est l'échantillon test (‘test sample’) où l’on donne seulement à l'algorithme les valeurs de x et l’on observe les valeurs de y qu’il prédit. On appellera les valeurs prédites par l'algorithme ŷ. À la fin, on peut comparer les valeurs prédites, ŷ, avec les valeurs réelles, y, de l'échantillon test. Intuitivement, plus les valeurs ŷ sont proches des valeurs y, plus l'algorithme est performant.
Un enjeu important quand on entraine l'algorithme est le surapprentissage (‘overfitting’ en anglais). Le surapprentissage est une situation dans laquelle l'algorithme apprend tellement bien la structure liant les variables x à y sur l'échantillon d'entrainement qu'il est incapable de détecter de nouvelles structures dans l'échantillon test. Dans ce cas-là, la performance prédictive de l'algorithme sera réduite et les résultats seront moins fiables. C'est alors à l'économiste de bien calibrer l'algorithme pour ne pas être trop proche de la structure de l'échantillon d'entrainement, ainsi que de créer de nombreux échantillons d'entrainement et de test pour s'assurer que les résultats sont robustes (une procédure dite de validation croisée ou `cross-validation').
Photo by Mike MacKenzie on Flickr
Pourquoi utiliser le Machine Learning ?
À ce stade, notre description du fonctionnement du Machine Learning ne représente pas véritablement une avancée méthodologique décisive pour l'économiste. L'un des outils les plus précieux pour l'économiste, la méthode des moindres carrés ordinaires, souvent appelée simplement régression linéaire, permet de réaliser des prédictions dans l'esprit de l'approche du Machine Learning que nous venons d’exposer (entrainement puis test), et cela même si la régression linéaire est avant tout une méthode d'estimation. Qu'apporte donc ici le Machine Learning ?
Prenons un exemple. Imaginons que nous voulons prédire les prix de l'immobilier. Nous avons une base de données qui, pour chaque logement, associe son prix à de nombreuses variables comme son emplacement, le nombre de chambres, le quartier, la surface, les équipements, etc. En utilisant une régression linéaire, nous devrions essayer de spécifier une certaine structure à la relation entre le prix du logement et les autres variables (emplacement, nombre de chambres, etc.). Par exemple, on peut supposer que le prix d'un logement dépend de l'addition de chacune de ces variables, mais aussi de certaines interactions entre ces variables : l'interaction entre le nombre de chambres et la surface totale peut ainsi être une interaction d'importance. C'est à l'économiste de définir dans sa régression linéaire la manière dont ces différentes variables s'organisent pour spécifier le modèle qui permettra d'approcher le mieux les valeurs de y (le prix du logement). Cette tâche est simple si l’on doit choisir entre 5 ou 10 variables. Cependant, si nous disposons de plus de 100 variables qui décrivent les caractéristiques d'un logement, la tâche devient un véritable défi.
C'est dans ce type de situations que des outils de Machine Learning peuvent se révéler précieux pour l'économiste. Il existe, par exemple, des algorithmes dits d'apprentissage ensembliste (‘ensemble methods’ en anglais) qui déterminent eux-mêmes quelles variables et quelles interactions entre les variables sont importantes pour comprendre la relation entre les caractéristiques du logement et son prix sur le marché. De façon générale, pour chaque problème particulier, un algorithme de Machine Learning peut s'avérer pertinent pour traiter les données quand la régression linéaire ne l'est pas.
La question est donc de savoir quels sont, de façon très générale, ces problèmes où l'on peut s’attendre à ce que la régression linéaire soit moins efficace qu'un algorithme de Machine Learning. On pourrait distinguer deux types de données qui, intuitivement, sollicitent l'usage du Machine Learning à la place des méthodes économétriques traditionnelles comme la régression linéaire. Il s'agit, d’une part, des données multidimensionnelles, que l'on peut définir par le fait qu'elles contiennent un nombre très important de variables qu'il est difficile d'organiser et qui, souvent, peut excéder le nombre d'observations si l'on considère les interactions possibles entre les variables. Dans le cas où le nombre de variables excède le nombre d'observations, il est même impossible d'utiliser une régression linéaire pour des raisons mathématiques. On peut, d'autre part, penser aux données non conventionnelles comme les images ou le texte. Dans ce cas, il est nécessaire de faire appel à des algorithmes qui soient capables de reconnaître la façon dont une image s'organise en de multiples pixels, ou qui puissent prédire la position des mots ainsi que celle des phrases dans lesquelles ces mots apparaissent.
Que pouvons-nous (et ne pouvons-nous pas) apprendre avec le Machine Learning ?
Les outils proposés par le Machine Learning sont certainement très attractifs : ils permettent de faire des prédictions concernant les effets d'une variable sur une autre, tout en traitant des données avec de nombreuses variables ou des données moins conventionnelles, comme les images et le texte. Une tentation naturelle pour l'économiste serait alors d'utiliser les algorithmes de Machine Learning pour essayer de découvrir si la fonction f(x) employée par l'algorithme lui permettrait de mieux modéliser théoriquement les processus économiques sous-jacents aux données. Cependant, il convient d'être prudent : deux algorithmes complètement différents, c'est-à-dire utilisant deux fonctions f(x) très différentes, peuvent avoir un pouvoir prédictif extrêmement proche. De même, un algorithme de Machine Learning se concentre sur une tâche prédictive : déterminer une valeur ŷ.
L'économiste est donc confronté à un jugement pour choisir la meilleure méthode en fonction de son problème. D'une part, il a à sa disposition des outils permettant d'estimer l'impact d'une variable x sur une variable y. C'est le cas notamment de la régression linéaire. L'estimation nous permet de déduire une structure du processus économique par lequel la variable y est générée. D'autre part, il dispose d’outils permettant de prédire la valeur d'une variable y à partir de l'observation de la valeur d'une variable x. C'est le rôle du Machine Learning : il nous fournit des algorithmes pour anticiper les prochaines valeurs de y avant qu'elles ne nous soient révélées.
Des applications concrètes du Machine Learning
Quelles applications concrètes, pour l'économiste, du Machine Learning aujourd'hui ? On peut identifier trois grandes applications du Machine Learning actuellement dans la recherche économique : (i) l'exploitation de bases de données multidimensionnelles et non conventionnelles ; (ii) la prédiction des conséquences des politiques publiques ; (iii) la mise à l'épreuve de modèles théoriques prédictifs face aux données [2].
Utiliser de nouvelles données
Le Machine Learning permet aux économistes de traiter des données multidimensionnelles et non conventionnelles avec lesquelles il était inimaginable de travailler il y a encore quelques années. Quelques exemples permettent de mettre en lumière ces avancées prometteuses.
Un premier exemple est l'utilisation des images. Aujourd'hui, l'imagerie spatiale est utilisée pour prédire le niveau de production sur un territoire (Henderson, Storeygard, et Weil, 2012) ou pour prédire le volume d'une récolte (Lobell, 2013). Dans une approche similaire, Glaeser et al. (2018) utilisent des images de Google Street View pour quantifier le niveau de revenus des quartiers à New York et Boston.
Le langage peut aussi devenir une source riche en informations. Par exemple, Kang et al. (2013) utilisent les avis des restaurants fournis par les utilisateurs sur Yelp.com pour prédire l'issue des contrôles sanitaires aux restaurants. De même, Antweiler et Frank (2004) utilisent les messages envoyés dans un forum online de finance pour prédire la volatilité du marché ainsi que le rendement des actifs.
Enfin, le Machine Learning est aussi utilisé pour traiter des bases de données contenant un nombre très important de variables. Blumenstock, Cadamuro et On (2015) utilisent une base de données anonymisée qui contient des milliers de millions d’interactions entre les utilisateurs d’un des plus larges réseaux téléphoniques au Rwanda pour prédire leur catégorie socio-économique et leur patrimoine individuel. Les auteurs ont ainsi accès à la fréquence et la durée des communications, la structure des réseaux sociaux, ou encore les schémas de déplacement et les choix résidentiels des individus. Les auteurs comparent ensuite les prédictions des modèles de Machine Learning avec des enquêtes individuelles recensant la catégorie socio-économique et le patrimoine des individus. En moyenne, dans huit cas sur dix, les modèles de Machine Learning prédisent avec succès la catégorie socio-économique et le patrimoine des individus. Comme le soulignent les auteurs, les applications potentielles de ces outils sont nombreuses : on pourrait par exemple identifier avec précision les individus en situation d'extrême pauvreté (afin de cibler efficacement des programmes sociaux), ou estimer le niveau de richesse d'un pays dans lequel les enquêtes de patrimoine et de revenus sont rares (le cas de l'Angola est éloquent : 44 années séparent les deux plus récentes enquêtes sur l'emploi et le revenu de ses habitants).
Prédire les conséquences des politiques publiques
Une autre application du Machine Learning consiste à prédire les conséquences des politiques publiques. Supposons que suite à l'arrestation d'un individu, un juge doive déterminer si l'accusé doit attendre d'être jugé à son domicile ou bien être mis en détention préventive. Par définition, le juge doit, pour prendre une décision, faire une prédiction sur le comportement futur de l'accusé. Assistera-t-il à son procès le jour venu ? Risque-t-il de commettre d'autres crimes s'il est laissé en liberté ? Dans ce cas particulier, un algorithme de Machine Learning pourrait aider le juge à prendre une décision. C'est ce que proposent de faire Kleinberg et al. (2018). Ils conçoivent un algorithme pour traiter 554 689 cas réels assignés à des juges entre 2008 et 2013 dans la ville de New York. L'algorithme reçoit en entrée les mêmes informations que le juge qui a traité le cas. Les auteurs comparent ensuite les choix de l’algorithme avec les choix des juges et suggèrent que l'usage du Machine Learning peut améliorer le choix humain. Par exemple, les 1 % des accusés considérés comme les plus dangereux par l'algorithme sont laissés en liberté par les juges dans 48,5 % des cas. Une fois relâchés, plus de la moitié d’entre eux n'assistent pas à leur procès ou sont arrêtés à nouveau [3].
Photo by Conny Schneider on Unsplash.
D'autres applications à des choix de politiques publiques sont similaires. Chandler, Levitt et List (2011) utilisent un modèle de Machine Learning qui permettrait de cerner et accompagner les jeunes qui pourraient être impliqués dans des fusillades dans les écoles de Chicago. Jacob et al. (2018) essaient de prédire la qualité de futurs professeurs d'école à Washington pour déterminer le meilleur candidat à embaucher. McBride et Nichols (2018) s'intéressent au ciblage de l'assistance humanitaire dans les pays en développement. Ces auteurs utilisent l’exemple de l’USAID (United States Agency for International Development) [4], qui doit décider comment allouer de façon efficace l’aide humanitaire en ciblant les territoires et les individus qui en ont le plus besoin. Pour ce faire, l'agence estime l'importance de différentes caractéristiques socio-économiques des ménages en utilisant des régressions linéaires. Cependant, la quantité de variables à traiter est très importante et il est difficile de sélectionner celles qui permettent de déterminer au mieux les différentes ressources. McBride et Nichols proposent donc d'utiliser des modèles de Machine Learning qui choisiraient par eux-mêmes les variables à retenir. Ils prouvent que ces modèles permettent de mieux cibler les différents programmes et réduisent le taux de non-recours, comparés aux méthodes utilisées par l'USAID jusqu’alors.
Même si le Machine Learning se présente donc comme un outil puissant pour prédire les effets des politiques publiques, il est important de se montrer prudent quant aux limites de ces outils. Une première remarque concerne l'absence de contrefactuel dans les bases de données mobilisées. Nous savons ce qui s'est passé dans certaines conditions, mais nous ne pouvons pas être sûrs que chaque cas individuel réagira de la même façon. En ce sens, les méthodes économétriques peuvent aider à construire les contrefactuels nécessaires pour avoir des résultats plus fiables. Une deuxième remarque attire l'attention sur l'adoption même des algorithmes. Dans quelle mesure doit-on se fier aux indications de l'algorithme ? Les prédictions de l'algorithme sont-elles alignées avec les préférences sociales ou morales des décideurs publics ? Comment les algorithmes peuvent-ils aider les décideurs publics à prendre des décisions efficaces ou moralement acceptables ? Ces différentes questions invitent à réfléchir davantage à la façon dont on peut utiliser au mieux le Machine Learning pour orienter les décisions publiques.
Tester des théories
Une dernière application du Machine Learning consiste à confronter des théories purement prédictives à l'évidence empirique en gardant une perspective athéorique (c'est-à-dire sans imposer une structure spécifique à la relation qui lie x à y).
Prenons par exemple l'hypothèse des marchés efficients (Fama, 1995). Une prédiction importante de cette théorie est qu'aucun individu ne peut anticiper le prix des actifs et n'est donc capable de battre le marché. Moritz et Zimmermann (2016) adaptent des algorithmes de Machine Learning pour identifier les différentes variables qui influencent le prix des actifs. Leurs résultats indiquent que les rendements passés des firmes aux États-Unis sont un bon prédicteur des futurs prix des actifs, une conclusion qui va à l'encontre de l'hypothèse des marchés efficients.
Une autre approche consiste à utiliser le Machine Learning comme une référence athéorique à partir de laquelle on pourrait comparer la performance prédictive des théories économiques. C'est l'approche adoptée par Peysakhovich et Naecker (2017), qui confrontent des modèles d'économie comportementale à des algorithmes de Machine Learning. Les auteurs réalisent des expériences en laboratoire dans lesquelles les participants doivent prendre des décisions simples dans des environnements de risque [5] ou d’ambigüité [6]. Les auteurs démontrent que les modèles sont aussi efficaces que des algorithmes de Machine Learning pour prendre des décisions dans un environnement risqué, ce qui souligne la précision de la modélisation en économie. En revanche, les algorithmes de Machine Learning sont plus performants que les modèles pour prendre des décisions dans une situation d'ambigüité, ce qui invite à affiner la modélisation économique dans cet environnement.
Conclusion
Une part importante et de plus en plus grande des économistes est en train de s'emparer des outils offerts par le Machine Learning pour conduire des analyses empiriques novatrices. La raison est double : le Machine Learning a permis aux économistes d'utiliser des bases de données nouvelles (multidimensionnelles, images, textes) qui jusqu'à alors demeuraient inexploitables avec les méthodes traditionnelles ; il a aussi ouvert le chemin pour explorer de nouveaux problèmes importants pour la discipline, notamment des problèmes où la prédiction d'un événement est la question de recherche principale.
Ainsi, le Machine Learning peut être compris comme une avancée méthodologique mais aussi conceptuelle dans la discipline. Il élargit l'approche déductive en économie, où il s'agit de comprendre la structure sous-jacente aux données qui génère les observations empiriques. Il propose désormais aussi d'explorer des champs de recherche où l'on laisse les données parler afin de prédire certains processus. En ce sens, le Machine Learning se pose aujourd'hui comme le meilleur moyen pour entendre attentivement ce que les données ont à nous dire.
Le Machine Learning s'ajoute donc à la boîte à outils de l'économiste non seulement pour exploiter de nouvelles données et incorporer de nouvelles méthodes, mais aussi, à terme, pour aborder et résoudre de nouveaux problèmes.
Bibliographie
Antweiler W., Murray F. Z. (2004), Is all that talk just noise? The information content of internet stock message boards, Journal of Finance, 59 (3), 1259-94.
Athey S., Imbens G. (2019), Machine learning methods that economists should know about, Annual Review of Economics, 11, 685-725.
Blumenstock J., Cadamuro G., On R. (2015), Predicting poverty and wealth from mobile phone metadata, Science, 350, 1073-6.
Chandler D., Levitt S., List J. (2011), Predicting and preventing shootings among at risk-youth, American Economic Review, 101 (3), 288-92.
Ellsberg D. (1961), Risk, ambiguity, and the Savage axioms, Quarterly Journal of Economics, 75 (3), 585-603.
Fama E. F. (1995), Random walks in stock market prices, Financial Analysts Journal, 51 (1), 75-80.
Glaeser E. L., Kominers S. D., Luca M., Naik N. (2018), Big data and big cities : The promises and limitations of improved measures of urban life, Economic Inquiry, 56 (1), 114-37.
Henderson J. V., Storeygard A., Weil N. D. (2012), Measuring economic growth from outer space, American Economic Review, 102 (2), 994-1028.
Jacob B. A., Rockoff J. E., Taylor E. S., Lindy B., Rosen R. (2018), Teacher applicant hiring and teacher performance : Evidence from DC public schools, Journal of Public Economics, 166, 81-97.
Kahneman D., Rosenfield A., Gandhi L., Blaser T. (2016), NOISE: How to overcome the high hidden cost of inconsistent decision making, Harvard Business Review, 94, 38-46.
Kang J. S., Kuznetsova P., Michael L., Choi Y. (2013), Where not to eat? Improving public policy by predicting hygiene inspections using online reviews, Proceedings of the 2013 conference on empirical methods in natural language processing, 1443-8.
Kleinberg J., Lakkaraju H., Leskvec J., Ludwig J., Mullainathan S. (2017), Human decisions and machine predictions, Quarterly Journal of Economics, 133 (1), 237-93.
Knight F. (1921), Risk, Uncertainty, and Profit, Houghton Mifflin.
Lobell D. B. (2013), The use of satellite data for crop yield gap analysis, Field Crops Research, 143, 56-64.
McBride L., Nichols A. (2018), Retooling poverty targeting using out-of-sample validation and machine learning, World Bank Economic Review, 32 (3), 531-50.
Moritz B., Zimmermann T. (2016), Tree-based conditional portfolio sorts: The relation between past and future stock returns, Working Paper.
Mullainathan S., Spiess J. (2017), Machine Learning: an applied econometric approach, Journal of Economic Perspectives, 31 (2), 87-106.
Peysakhovich A., Naecker J. (2017), Using methods from machine learning to evaluate behavioral models of choice under risk and ambiguity, Journal of Economic Behavior and Organization, 133, 373-84.
Pour aller plus loin
Charpentier A., Flachaire E., Ly A (2019), « Econométrie et Machine Learning », Economie et statistiques.
« Donner ses données. « Big Data », économie et société », Regards Croisés sur l'Economie, 2018/2, n°23, La Découverte.
Galiana L. (2018), « Les conséquences économiques de l'intelligence artificielle », Idées économiques et sociales, n°192.
Kahneman D., Sunstein R.C., Sibony O. (2021), Noise. Pourquoi nous faisons des erreurs de jugement et comment les éviter, Odile Jacob.
Notes
[1] Un algorithme est la description d'une suite d'étapes permettant d'obtenir un résultat à partir d'éléments fournis en entrée. Un algorithme peut ainsi viser à simuler une évolution, produire des recommandations, comparer des situations… à partir d’un certain nombre de données.
[2] J'omets volontairement une quatrième application qui est l'utilisation du Machine Learning pour épauler un travail d'estimation en économétrie. Cette utilisation est davantage technique et spécifique à certaines méthodes économétriques qu'il serait long de détailler ici, comme le contrôle par des variables confondantes, les variables instrumentales, et l'identification des effets hétérogènes d'un traitement. Le lecteur intéressé peut se diriger vers Mullainathan et Spiess (2017) pour une explication détaillée.
[3] Ces conclusions s'inscrivent dans un débat plus large en économie concernant les variations interindividuelles des jugements humains et, en particulier, des décisions de justice (voir notamment Kahneman et al., 2016). Si les juges font des choix différents face à des cas similaires, on peut penser que c'est parce qu’ils possèdent une information privée, non visible dans les données, qui améliore le processus de prise de décision. Mais à l'opposé, on peut penser que cette inconsistance provient de l'absence de règle claire concernant la façon de prendre les décisions, ce qui introduit du « bruit » et dégrade donc le processus. Les résultats de Kleinberg et al. (2018) vont dans le sens de la deuxième hypothèse et suggèrent, plus largement, que les coûts associés au « bruit » sont souvent sous-estimés ou mal calculés par les agents économiques.
[4] L'USAID est l'agence du gouvernement des États-Unis chargée de gérer et acheminer l'assistance humanitaire à destination des pays en développement.
[5] Le risque est défini comme un environnement dans lequel les agents connaissent les probabilités associées à la réalisation des états possibles de la nature (Knight, 1921).
[6] L'ambigüité est définie comme un environnement dans lequel les agents possèdent juste des informations partielles sur les probabilités associées à la réalisation des états possibles de la nature (Ellsberg, 1961).