statistiques : données manquantes

Un problème, une question, un nouveau théorème ?

Messages : 0

Inscription : 17 oct. 2015 14:32

Profil de l'utilisateur : Élève de lycée

statistiques : données manquantes

Message par kilag » 31 juil. 2018 11:42

Salut!
J'ai actuellement un petit problème.
J'étudie des données, et j'ai beaucoup de données manquantes, et dans l'idéal j'aimerai les remplacer par une valeur.
Typiquement, je peux avoir deux valeurs possibles : achats ou ventes, pour des clients.
J'aimerai savoir ce qu'il faut utiliser pour remplacer tous les trous par ou "achat" ou "vente"? quels sont les outils statistiques a utiliser? (si vous avez de bons liens par hasard)

Pour le problème plus concrètement, j'ai des clients qui viennent ou acheter ou vendre, dans un horizon temporel (1an et demi), mais il me manque pleins de données ou je sais qu'ils sont venus mais je ne sais pas si c'était pour acheter et vendre
Donc j'ai commencé par regarder un cas précis : les clients qui n'ont que acheté (ou vendu) : quels sont les vérifications a faire pour pouvoir dire "lui il viens toujours pour acheter"
genre si il est venu acheter 200 fois et que j'ai en tout 500 passages, a quel point j'ai le droit d'extrapoler et dire que les 500 fois c'était pour acheter ?

Et ensuite j'aurai le deuxième problème : quand il viens pour acheter et vendre, comment puis-je construire un modele pour simuler tous les trous de données?

merci d'avance si certains ont déjà réalisés ce genre de chose

Messages : 3823

Inscription : 17 avr. 2012 21:19

Profil de l'utilisateur : Élève de lycée

Re: statistiques : données manquantes

Message par bullquies » 31 juil. 2018 13:11

Bonjour,

problème très intéressant !

Tout d'abord, quelques questions préliminaires pour mieux comprendre : que veux-tu faire de ces données ? Quelles données connais-tu ?

Une autre question : est-ce que c'est des données qui ont tendance à dépendre du moment dans l'année (saisonnalité) ?

Enfin : est-ce que les données manquantes sont ... au hasard ? Ou est-ce qu'il manque toujours certaines données

Quelle est la proportion de lignes pour lesquelles il manque des données ? Quel nombre de lignes est-ce que tu as ?

Pour info c'est un problème de "data imputation", si jamais tu veux chercher aussi de ton côté
The Axiom of Choice is obviously true, the Well-Ordering Principle is obviously false, and nobody knows about Zorn's Lemma. - Jerry Bona

Messages : 0

Inscription : 17 oct. 2015 14:32

Profil de l'utilisateur : Élève de lycée

Re: statistiques : données manquantes

Message par kilag » 31 juil. 2018 14:08

Alors en réalité, un client nous appel pour nous demander les prix d'achats et de ventes, et soit on est meilleur que les concurrents et le client achète ou vend et donc on a la donnée
soit un concurrent est mieux positionné et le client va voir ailleurs, et a ce moment là on ne sait pas si il venait acheter ou vendre.
Donc la donnée manquante dépend de notre compétitivité.
Mais on a besoin d'un maximum de données pour pouvoir les étudiés, il faut donc remplacé ces données manquantes par le label "vente" ou "achat" au maximum (là on à 85% de données manquantes, il faut drastiquement diminuer ce chiffre, tomber à pourquoi pas 30% voir moins)

Répondre