Predicting Material and Social Deprivations with Machine Learning

Par :

Taye, Alemayehu D [author]

Type de matériel : Texte

TexteLangue : français Détails de publication : 2026. Sujet(s) :

Ressources en ligne :

Cliquez ici pour consulter en ligne

Abrégé : Using the European Union Statistics on Income and Living Conditions (EU-SILC) microdata and applying machine learning (ML) algorithms, the following questions have been explored : (i) How accurately can one classify unseen individuals’ deprivations status given their observable personal, household, and country-specific factors ? (ii) What is the performance of targeting subsets of features, such as sociodemographic, socioeconomic, health, and location, to identify the deprived ? (iii) What are the key predictors and their partial effects ? Key results of the empirical analysis demonstrate that the relative accuracy gained by using the sophisticated tree-based ML algorithm is positive and significant compared to that of the standard generalized linear model (7.3% relative gain with Xgoost and 5.9% with the random forest). Socioeconomic factors yield a classification accuracy as close as when the whole set of features is considered. Feature importance and partial effect analysis identified with Shapley’s value reveal insightful relationships consistent with theoretical and empirical evidence.Abrégé : À partir des microdonnées de l’enquête European Union Statistics on Income and Living Conditions (EU-SILC) et en mobilisant des algorithmes d’apprentissage automatique (machine learning), cet article analyse la capacité de modèles prédictifs à identifier le statut de privation matérielle et sociale d’individus non observés. Trois questions de recherche structurent l’analyse : (i) dans quelle mesure les caractéristiques personnelles, familiales et nationales observables permettent-elles de prédire avec précision le statut de privation ; (ii) quelle est la performance comparative de modèles fondés sur des sous-ensembles de variables — sociodémographiques, socioéconomiques, de santé et de localisation — pour l’identification des individus en situation de privation ; (iii) quels sont les principaux déterminants et quels effets partiels exercent-ils sur la probabilité de privation.Les résultats empiriques montrent que les algorithmes d’apprentissage automatique fondés sur des structures arborescentes offrent des gains de précision relatifs positifs et statistiquement significatifs par rapport au modèle linéaire généralisé standard, avec un gain de 7,3 % pour XGBoost et de 5,9 % pour la forêt d’arbres de décision. Les variables socioéconomiques, considérées isolément, permettent d’atteindre une précision de classification proche de celle obtenue en mobilisant l’ensemble des variables explicatives. L’analyse de l’importance des variables et des effets partiels, fondée sur les valeurs de Shapley, met en évidence des relations robustes et interprétables, en cohérence avec la littérature théorique et empirique existante.Abrégé : A partir de los microdatos de la encuesta European Union Statistics on Income and Living Conditions (EU-SILC) y mediante la aplicación de algoritmos de aprendizaje automático (machine learning), este artículo examina la capacidad de los modelos predictivos para identificar el estado de privación material y social de individuos no observados. El análisis se articula en torno a tres preguntas de investigación : (i) en qué medida las características personales, del hogar y del contexto nacional observables permiten predecir con precisión el estado de privación; (ii) cuál es el desempeño comparado de modelos basados en subconjuntos de variables — sociodemográficas, socioeconómicas, de salud y de localización — para la identificación de individuos en situación de privación; y (iii) cuáles son los principales determinantes y cuáles son sus efectos parciales sobre la probabilidad de privación.Los resultados empíricos muestran que los algoritmos de aprendizaje automático basados en estructuras arbóreas presentan ganancias relativas de precisión positivas y estadísticamente significativas en comparación con el modelo lineal generalizado estándar, con un incremento del 7,3 % para XGBoost y del 5,9 % para el bosque de árboles de decisión. Asimismo, las variables socioeconómicas, consideradas de manera aislada, permiten alcanzar una precisión de clasificación cercana a la obtenida cuando se utiliza el conjunto completo de variables explicativas. El análisis de la importancia de las variables y de los efectos parciales, basado en los valores de Shapley, pone de manifiesto relaciones robustas e interpretables, coherentes con la literatura teórica y empírica existente.

Tags de cette bibliothèque : Pas de tags pour ce titre. Connectez-vous pour ajouter des tags.

Exemplaires ( 0 )
Notes de titre ( 4 )

Nous n'avons pas d'exemplaire de ce document

Using the European Union Statistics on Income and Living Conditions (EU-SILC) microdata and applying machine learning (ML) algorithms, the following questions have been explored : (i) How accurately can one classify unseen individuals’ deprivations status given their observable personal, household, and country-specific factors ? (ii) What is the performance of targeting subsets of features, such as sociodemographic, socioeconomic, health, and location, to identify the deprived ? (iii) What are the key predictors and their partial effects ? Key results of the empirical analysis demonstrate that the relative accuracy gained by using the sophisticated tree-based ML algorithm is positive and significant compared to that of the standard generalized linear model (7.3% relative gain with Xgoost and 5.9% with the random forest). Socioeconomic factors yield a classification accuracy as close as when the whole set of features is considered. Feature importance and partial effect analysis identified with Shapley’s value reveal insightful relationships consistent with theoretical and empirical evidence.

À partir des microdonnées de l’enquête European Union Statistics on Income and Living Conditions (EU-SILC) et en mobilisant des algorithmes d’apprentissage automatique (machine learning), cet article analyse la capacité de modèles prédictifs à identifier le statut de privation matérielle et sociale d’individus non observés. Trois questions de recherche structurent l’analyse : (i) dans quelle mesure les caractéristiques personnelles, familiales et nationales observables permettent-elles de prédire avec précision le statut de privation ; (ii) quelle est la performance comparative de modèles fondés sur des sous-ensembles de variables — sociodémographiques, socioéconomiques, de santé et de localisation — pour l’identification des individus en situation de privation ; (iii) quels sont les principaux déterminants et quels effets partiels exercent-ils sur la probabilité de privation.Les résultats empiriques montrent que les algorithmes d’apprentissage automatique fondés sur des structures arborescentes offrent des gains de précision relatifs positifs et statistiquement significatifs par rapport au modèle linéaire généralisé standard, avec un gain de 7,3 % pour XGBoost et de 5,9 % pour la forêt d’arbres de décision. Les variables socioéconomiques, considérées isolément, permettent d’atteindre une précision de classification proche de celle obtenue en mobilisant l’ensemble des variables explicatives. L’analyse de l’importance des variables et des effets partiels, fondée sur les valeurs de Shapley, met en évidence des relations robustes et interprétables, en cohérence avec la littérature théorique et empirique existante.

A partir de los microdatos de la encuesta European Union Statistics on Income and Living Conditions (EU-SILC) y mediante la aplicación de algoritmos de aprendizaje automático (machine learning), este artículo examina la capacidad de los modelos predictivos para identificar el estado de privación material y social de individuos no observados. El análisis se articula en torno a tres preguntas de investigación : (i) en qué medida las características personales, del hogar y del contexto nacional observables permiten predecir con precisión el estado de privación; (ii) cuál es el desempeño comparado de modelos basados en subconjuntos de variables — sociodemográficas, socioeconómicas, de salud y de localización — para la identificación de individuos en situación de privación; y (iii) cuáles son los principales determinantes y cuáles son sus efectos parciales sobre la probabilidad de privación.Los resultados empíricos muestran que los algoritmos de aprendizaje automático basados en estructuras arbóreas presentan ganancias relativas de precisión positivas y estadísticamente significativas en comparación con el modelo lineal generalizado estándar, con un incremento del 7,3 % para XGBoost y del 5,9 % para el bosque de árboles de decisión. Asimismo, las variables socioeconómicas, consideradas de manera aislada, permiten alcanzar una precisión de clasificación cercana a la obtenida cuando se utiliza el conjunto completo de variables explicativas. El análisis de la importancia de las variables y de los efectos parciales, basado en los valores de Shapley, pone de manifiesto relaciones robustas e interpretables, coherentes con la literatura teórica y empírica existente.

Predicting Material and Social Deprivations with Machine Learning

PLUDOC

Adresse

Liens utiles

Predicting Material and Social Deprivations with Machine Learning

PLUDOC

Adresse

Réseaux sociaux

Liens utiles