Archive for août 2008

La loi de Benford

août 29, 2008

Quand j’étais au lycée j’avais remarqué sur ma calculatrice, que je m’apprêtais à nettoyer, plus de crasse sur le chiffre 1 et 2 que sur les autres chiffres. Intrigué je décidais de ne pas la nettoyer et à la fin de l’année je constatais qu’il existait une sorte de loi universel produisant un encrassement inversement proportionnel à la valeur du chiffre indiqué sur les touches des calculatrices. Je n’arrivais pas à admettre que les petit chiffres étaient plus souvent utilisés que les grands, il me semblait évidant que le hasard devait aplanir toute hiérarchie de ce genre…

Ne trouvant pas d’explication et les vacances étant arrivées j’oubliais complètement cette observation, jusqu’au jours où des années plus tard je tombe sur un article parlant de la loi de Benford.

Cette loi a était découverte pour la première fois par Newcomb (1881), qui remarqua une usure non uniforme des tables logarithmiques, c’est à dire que les premières pages étaient plus usées que les dernières, il comprit que cela venait du fait que les ingénieurs et les physiciens qui utilisait ces tables manipulait des nombres naturel (résultat de mesures) dont le premier chiffre avait la curieuse propriété de contenir plus de 1 que de 2 et plus de 2 que de 3 etc.. le chiffre 9 étant le moins représenté. Il consulta alors des bases de données naturelles comme la superficie des lacs du monde ou le poids moléculaires de différent composés chimiques. Il trouvas une relation empirique qui donne la probabilité que le premier chiffre d’un nombre naturel soit n :

P(p=n)= Log(1+1/n))

Log étant le logarithme de base 10. Ce qui donne graphiquement :

Malheureusement pour Newcomb on ne prêtât guère attention à sa remarque pertinente, par contre l’histoire retiendra son nom pour une tout autre démonstration: Celle qui prétendait prouver l’impossibilité du vol maîtrisable du plus lourd que l’air…

Ce n’est qu’en 1938 que Benford refit indépendamment la découverte. Il poussa plus loin les vérifications et donna son nom à la loi.

D’où vient cette loi? Cette loi touche essentiellement les nombres issus d’une valeur naturelle (dimensions, prix, dénombrement…), elle résulte de l’invariance d’échelle des objets naturels. Cette invariance d’échelle peut ce comprendre par le simple fait que dans un espace fini il y aura toujours plus de petits objets que de grands. Il en résulte que l’échelle naturelle n’est pas linéaire mais logarithmique, si on représente graphiquement le nuage de points d’une population donnée (par exemple la superficie des lacs) ces points vont ce répartir relativement uniformément sur un graphe logarithmique, on comprend des lors qu’il y aura plus de points entre 2 et 1 qu’entre 3 et 2, etc…. la quantité de points représentant la valeur d’un nombre dont le premier chiffre est 1 sera égale à log(2)-log(1), la quantité de points dont le premier chiffre est 2 sera égale à log(3)-log(2), la quantité de points dont le premier chiffre est n sera égale à log(n+1)-log(n)=log(1+1/n).

Il faut toutefois que ces objets n’aient pas de tailles caractéristiques (comme la taille d’une seule espèce animal), et qu’ils existent sur plusieurs ordre de grandeur. La loi ce retrouve assez bien pour: la surface des lacs, la longueur des fleuves, le prix, la population urbaine, etc…

Application: la loi de Benford a trouvé une application étonnante, elle permet en effet de repérer les fraudes fiscales…

L’avion est-il plus dangereux que la voiture ?

août 14, 2008

On entend souvent dire que l’avion est un moyen de transport plus sur que la voiture, mais est-ce vrai?

voyons ce que nous disent les statistiques:

avions de ligne:

0.05 accident mortel et 1.57 morts par 100 millions de milles parcourus.

voiture:

1.32 accidents mortel et 1.47 morts par 100 millions de milles parcourus.

On constate donc que le nombre de morts au km est à peu près identique.

Donc pour allé d’un point A à un point B, le risque semble être à peu près le même que l’on prenne la voiture ou l’avion, en fait si on prend le point de vue d’un passager lambda on a plutôt:

pour l’avion de ligne: 1 accidant mortel (qui tue le passager lambda) pour 2000 millions de milles (en supposant qu’il n’y a aucune chance de s’en sortir vivant).

pour la voiture : 1 accident mortel (qui tue le passager lambda) pour 120 millions de milles (en tenant compte qu’il y a en moyenne 1.6 passager par voiture et 1.11 mort par accident mortel).

donc pour un utilisateur lambda et pour aller d’un point A à un point B l’avion est en moyenne 17 fois plus sur que la voiture… même si globalement il tue autant au km (l’avion transporte 17 fois plus de passager).

Mais la question qu’on se pose concrètement au moment de monter dans un véhicule fait référence à la probabilité de se tuer en fonction du véhicule utilisé (indépendamment de la distance à parcourir). Pour répondre à cette question il faut évaluer la distance moyenne parcourue à chaque utilisation de l’avion ou de la voiture.

La distance moyenne parcourue par un avion de ligne est de l’ordre de 3000km (6500 pour les long courrier, 500km pour les court).

la distance moyenne parcourue par une voiture entre le démarrage et la coupure de contacte est de l’ordre de 20 km.

On arrive ainsi à la probabilité suivante :

pour l’avion de ligne : 1 accident mortel tous les 1 000 000 utilisations (en supposant qu’il n’y a aucune chance de s’en sortir vivant).

pour la voiture : 1 accident mortel tous les 10 000 000 utilisations (en tenant compte qu’il y a en moyenne 1.6 passager par voiture et 1.11 mort par accident mortel).

Ainsi pour un utilisateur lambda prendre un avion de ligne est environs et en moyenne 10 fois plus dangereux que prendre la voiture (indépendamment de la distance parcourue).

Dès lors il n’est pas si irrationnel que cela d’avoir plus peur en avion qu’en voiture.

Ceci dit il est claire que nous prenons beaucoup plus souvent la voiture que l’avion ( la voiture tue 1 millions de personne par an dans le monde contre moins de 1000 pour l’avion) c’est pourquoi on a beaucoup plus de chance de mourir d’un accident de voiture durant notre vie (1 sur 100 !) que de mourir dans un accident d’avion de ligne (1 sur 100 000 en moyenne).

Bon alors finalement qui est le plus dangereux?

Le problème qu’il y a lorsque l’on compare la voiture et l’avion c’est que leur dangerosité est de nature différente, pour l’avion le risque principal est au moments du décollage ou de l’atterrissage, autrement dit c’est le nombre d’utilisation qui augmente la probabilité de ce tuer en avion, alors que pour la voiture c’est essentiellement le kilométrage qui augmente la probabilité de ce tuer en voiture.

donc pour aller d’un point A à un point B distant de x km on a aproximativement:

1 chance sur 1 000 000 de ce tuer en avion

x chances sur 200 000 000 de ce tuer en voiture

Autrement dit prendre l’avion est plus sur si la distance à parcourir est supérieur à 200 km ce qui correspond à peu près à la distance minimal des lignes aériennes internes. Une autre façon de voire la chose serait de dire que prendre l’avion est aussi (peu) risqué que de faire 200 km en voiture ( 100 km si c’est une route national tout le long et 400 km si c’est l’autoroute tout le long, voir Rq 2).

Donc globalement pour ce déplacer à longue distance et pour un utilisateur lambda, l’avion est un peu plus sur que la voiture, mais comme on l’a vu précédemment si on ne considère que l’acte « je prend un moyen de transport », l’acte « je prend la voiture » est en moyenne 18 fois moins dangereux que l’acte  » je prend un avion de ligne », indépendamment de la distance que je vais parcourir (parce que la distance moyenne parcourus en voiture est petite).

Par contre même si l’avion tue autant au km que la voiture elle transporte aussi environs 20 fois plus de monde, c’est à dire que si le but est de transporter le plus de monde saint et sauf d’un point A à un Point B alors l’avion est 20 fois plus sur que la voiture, c’est ce dernier point qui est mis en avant par les compagnie aérienne.

Résumer:

– Le moyen de transporter qui permet globalement de transporter le plus de monde en faisant le minimum de victime est l’avion, l’avion est de ce point de vue 20 fois meilleur que la voiture (même si il tue autant  au km que la voiture).

– Pour un utilisateur lambda qui veut aller d’un point A à un point B, la probabilité qu’il a de ce tuer en avion est inférieur à la probabilité de ce tuer en voiture au delà d’une distance de 400km (sur autoroute). Cette probabilité décroit relativement en D/400 ou D est la distance parcouru, ainsi pour faire Paris-Madrid (1300 km), le passager à 3 fois plus de chance de ce tuer en voiture qu’en avion, par contre pour faire Paris-Londre l’avion et la voiture lui donne à peu près la même chance de ce tuer.

– Si on considère le nombre d’accidents mortel par utilisation d’un moyen de locomotion (quelle que soit la distance parcourue), l’avion deviens 18 fois plus dangereux que la voiture (parce que la distance moyenne d’un trajet de voiture n’est que de 20km).

En résumer : « L’avion est le moyen de transport de plus sûr, c’est aussi le plus sûr moyen de se tuer »

Rq 1 : je ne parle ici que des avions de ligne, si on inclus les petits avions de tourisme le risque est encore 10 fois supérieur, ce qui les rendent clairement plus dangereux que la voiture.

Rq 2: l’autoroute est 4 x moins dangereuse que la route nationale (et elle représente 28% du trafique). J’ai supposé par ailleurs que les chiffres utilisés ici concernant les accidents de voitures ne tiennent pas compte des morts piétons (cela semble être le cas si on compare avec les chiffres français, voir lien 4).

quelques références :

1

2

3

4

Loi des séries

août 10, 2008

« Un malheur n’arrive jamais seul», «jamais deux sans trois»… qui n’a jamais eu l’impression que les événements rares arrivent par paquet? c’est cette impression qui a donné naissance à la loi empirique appelé communément loi des séries. Mais cette loi a t-elle un soupçon de vérité?

En fait oui, il y a quelque chose de vrai la dedans, et cela vient du fait que le temps mort entre deux événements rares a une valeur dont la probabilité d’exister est d’autant plus grande que ce temps est court. Prenons le cas des crash d’avions: si on représente le nombre de crash en fonction du temps morts entre deux crash successif on obtiens l’histogramme suivant:

Cet histogramme montre que plus le temps mort est court plus sa densité de probabilité est grande, ce qui favorise les agrégats c’est à dire que les crashs auront tendances à ce produire par grappes ou par séries…

On dénombre par exemple une quarantaine de temps mort de 10 jours (+/- 2jours) contre 2 temps morts de 100 jours (+/- 2 jours).

on peut démontrer cela à partir de la loi statistique de poisson. On trouve une densité de probabilité égale à :

P(dt)=\frac{dN}{dt}= K\frac{\lambda^{T/dt} e^{-\lambda}}{gamma(T/dt+1)} T dt^{-2}

T=1Jour

\lambda=0.0281 crash/Jours

On peut comprendre en partie ce phénomène en faisant remarquer que dans un laps de temps fixe il y a potentiellement plus de place pour de petits intervalles de temps que pour de grand intervalle de temps .

Si on s’amuse à représenter par des points, sur une ligne temporelle, la succession d’événements rares régis par une loi de poisson (points bleu) et si on la compare à la répartition qu’aurait ces points dans le cas d’une loi dont la densité de probabilité des temps morts serait uniforme (point noir) on verait que la loi de poisson qui régie les événements rares produit nettement plus de grappes de points que la loi uniforme:

La « loi des séries » est donc due à la structure même de la statistique qui régie les événements rares, mais il ne faut pas oublier que ces événements restes indépendants les uns des autres contrairement à l’impression intuitive que donne de telles grappes. Inutile par exemple de ne pas prendre l’avion juste après un crach sous prétexte qu’ils arrivent en tire groupées.

Des phénomènes psychologiques peuvent par ailleurs renforcer cette perception comme la mémoire, la perception logarithmique du temps, ou les loupes médiatiques.

voici une vidéo qui reproduit d’une manière sonore 819 crash majeur qui ont eu lieu entre 1920 et 2000, on perçoit bien le phénomène d’agrégation :