Hier finden Sie eine einfache Einführung in den Poisson-Prozess und die poisson distribution.
Ein Poisson-Prozess oder Poisson-Punktprozess beschreibt einen Prozess, bei dem bestimmte Ereignisse mit konstanter Rate, aber zufällig und unabhängig voneinander auftreten. Eine poisson distribution ist eine diskrete Wahrscheinlichkeitsverteilung , die die Wahrscheinlichkeit misst, dass eine bestimmte Anzahl von Ereignissen innerhalb eines bestimmten Zeitraums auftritt, vorausgesetzt, dass diese Ereignisse mit einer konstanten Durchschnittsrate und unabhängig vom vorherigen Ereignis auftreten.
Schauen wir uns Poisson-Prozesse und die poisson distribution an , zwei wichtige Wahrscheinlichkeitskonzepte in der Statistik. Nachdem wir die relevante Theorie beleuchtet haben, arbeiten wir ein Beispiel aus der Praxis durch.
Was ist ein Poisson-Prozess?
Ein Poisson-Prozess ist ein Modell für eine Reihe diskreter Ereignisse, bei denen die durchschnittliche Zeit zwischen den Ereignissen bekannt ist, der genaue Zeitpunkt der Ereignisse jedoch zufällig ist. Das Eintreten eines Ereignisses ist unabhängig vom vorherigen Ereignis (die Wartezeit zwischen Ereignissen ist gedächtnislos ). Angenommen, wir besitzen eine Website, die laut unserem Content Delivery Network (CDN) durchschnittlich einmal alle 60 Tage ausfällt, aber ein Ausfall hat keinen Einfluss auf die Wahrscheinlichkeit des nächsten. Wir kennen lediglich die durchschnittliche Zeit zwischen den Ausfällen. Die Ausfälle sind ein Poisson-Prozess, der wie folgt aussieht:
Wir kennen die durchschnittliche Zeitspanne zwischen den Ereignissen, aber die Ereignisse sind zeitlich zufällig verteilt ( stochastisch ). Es kann zu aufeinanderfolgenden Ausfällen kommen, aber es können auch Jahre zwischen den Ausfällen vergehen, weil der Prozess stochastisch ist.
Ein Poisson-Prozess erfüllt die folgenden Kriterien (in der Realität entsprechen viele als Poisson-Prozesse modellierte Phänomene diesen nicht genau, können aber als solche angenähert werden):
Der letzte Punkt – Ereignisse sind nicht gleichzeitig – bedeutet, dass wir uns jedes Teilintervall in einem Poisson-Prozess als Bernoulli-Versuch vorstellen können, also entweder als Erfolg oder als Misserfolg. Bei unserer Website beträgt das gesamte betrachtete Intervall 60 Tage, aber bei jedem Teilintervall (ein Tag) fällt unsere Website entweder aus oder nicht.
Gängige Beispiele für Poisson-Prozesse sind Kunden, die ein Hilfecenter anrufen, Besucher einer Website, radioaktiver Zerfall von Atomen, Photonen, die ein Weltraumteleskop erreichen, und Bewegungen eines Aktienkurses. Poisson-Prozesse werden im Allgemeinen mit der Zeit in Verbindung gebracht, müssen es aber nicht. Im Fall von Aktienkursen kennen wir vielleicht die durchschnittlichen Bewegungen pro Tag (Ereignisse pro Zeit), aber wir könnten auch einen Poisson-Prozess für die Anzahl der Bäume auf einem Hektar (Ereignisse pro Fläche) haben.
Ein Beispiel für einen Poisson-Prozess, den wir häufig sehen, sind Busankünfte (oder Züge). Dies ist jedoch kein echter Poisson-Prozess, da die Ankünfte nicht unabhängig voneinander sind. Selbst bei pünktlichen Bussystemen kann die Verspätung eines Busses die Ankunftszeit des nächsten Busses beeinflussen. Jake VanderPlas hat einen großartigen Artikel über die Anwendung eines Poisson-Prozesses auf Busankunftszeiten geschrieben, der mit erfundenen Daten besser funktioniert als mit realen Daten.
Was ist eine poisson distribution?
Die poisson distribution und ihre Formel helfen dabei, die Wahrscheinlichkeit einer bestimmten Anzahl von Ereignissen in einem bestimmten Zeitraum zu ermitteln oder die Wahrscheinlichkeit zu ermitteln, eine gewisse Zeit auf das nächste Ereignis zu warten. Da ein Poisson-Prozess ein Modell ist, das wir zur Beschreibung zufällig auftretender Ereignisse verwenden (was an sich nicht so nützlich ist), hilft die poisson distribution dabei, das Poisson-Prozessmodell zu verstehen.
Die Wahrscheinlichkeitsfunktion der poisson distribution (pmf) gibt die Wahrscheinlichkeit an, in einem Zeitraum k Ereignisse zu beobachten, wenn die Länge des Zeitraums und die durchschnittliche Anzahl der Ereignisse pro Zeit gegeben sind.
Wir können die poisson distribution pmf verwenden, um die Wahrscheinlichkeit zu ermitteln, eine Anzahl von Ereignissen über ein durch einen Poisson-Prozess erzeugtes Intervall zu beobachten. Eine weitere Verwendung der Massenfunktionsgleichung (wie wir später sehen werden) besteht darin, die Wahrscheinlichkeit zu ermitteln, eine bestimmte Zeitspanne zwischen Ereignissen abzuwarten.
Formel zur poisson distribution
Die Formel zur poisson distribution, mit deren Hilfe die pmf bestimmt werden kann, lautet wie folgt:
Die PMF ist ein wenig kompliziert, und wir können Ereignisse/Zeit * Zeitperiode in einen einzigen Parameter vereinfachen, Lambda (λ), den Ratenparameter. Mit dieser Ersetzung hat die Wahrscheinlichkeitsfunktion der poisson distribution jetzt einen Parameter:
In einer poisson distribution formel:
- k ist die Anzahl der Ereignisse, die in einem bestimmten Zeitraum oder Intervall aufgetreten sind
- k ! ist die Fakultät von k
- e ist die Eulersche Zahl (≈ 2,71828)
- λ ist die erwartete Anzahl von Ereignissen im angegebenen Zeitraum oder Intervall
- P ( k ) ist die Wahrscheinlichkeit, dass ein Ereignis k- maleintritt
Ratenparameter und poisson distribution
Was Lambda oder λ betrifft, können wir uns dies als den Ratenparameter oder die erwartete Anzahl von Ereignissen im Intervall vorstellen. (Wir werden dies als Intervall bezeichnen, da der Poisson-Prozess nicht immer einen Zeitraum verwendet.) Ich schreibe Lambda gerne aus, um mich daran zu erinnern, dass der Ratenparameter sowohl eine Funktion der durchschnittlichen Ereignisse pro Zeit als auch der Länge des Zeitraums ist, aber am häufigsten wird es wie oben beschrieben dargestellt. (Die diskrete Natur der poisson distribution ist der Grund, warum dies eine Wahrscheinlichkeitsmassenfunktion und keine Dichtefunktion ist.)
Wenn wir den Ratenparameter λ ändern, ändern wir die Wahrscheinlichkeit, dass in einem Intervall unterschiedliche Ereigniszahlen auftreten. Die folgende Grafik ist die Wahrscheinlichkeitsfunktion der poisson distribution und zeigt die Wahrscheinlichkeit (y-Achse), dass in einem Intervall mit unterschiedlichen Ratenparametern eine bestimmte Anzahl von Ereignissen (x-Achse) auftritt.
Die wahrscheinlichste Anzahl von Ereignissen in einem Intervall für jede Kurve ist der Ratenparameter der Kurve. Das ist sinnvoll, da der Ratenparameter die erwartete Anzahl von Ereignissen in einem Intervall ist. Daher stellt der Ratenparameter die Anzahl von Ereignissen mit der größten Wahrscheinlichkeit dar, wenn der Ratenparameter eine Ganzzahl ist. Wenn der Ratenparameter keine Ganzzahl ist, ist die Anzahl von Ereignissen mit der höchsten Wahrscheinlichkeit die dem Ratenparameter am nächsten liegende Ganzzahl. (Der Ratenparameter ist auch der Mittelwert und die Varianz der Verteilung , die keine Ganzzahlen sein müssen.)
Anwendungsfälle für die poisson distribution
Vorhersage von Website-Besuchen
Mithilfe der poisson distribution können wir die Wahrscheinlichkeit modellieren, dass an einem Tag eine bestimmte Anzahl von Website-Besuchen erfolgt. Nehmen wir beispielsweise an, dass eine bestimmte Website an einem Tag 10 Mal besucht wird. Auf dieser Grundlage kann die Formel der poisson distribution bestimmen, wie wahrscheinlich es ist, dass die Website innerhalb eines weiteren Tages einen oder möglicherweise 100 Besuche erhält.
Vorhersage von Hotelbuchungen
Die poisson distribution kann auch verwendet werden, um die Wahrscheinlichkeit einer bestimmten Anzahl von Hotelbuchungen in einer Woche zu messen. Wenn man beobachtet, wie 100 Gäste in einem Zeitraum von einer Woche Zimmer in einem bestimmten Hotel buchen, kann man die Wahrscheinlichkeit vorhersagen, dass in diesem Hotel in einer Woche 50, 75 oder eine andere Anzahl von Buchungen eingehen.
Vorhersage des Verkaufs eines Produkts
Mithilfe der poisson distribution lässt sich auch die Wahrscheinlichkeit ermitteln, wie viele Exemplare eines bestimmten Produkts innerhalb eines Monats verkauft werden. Nehmen wir als Beispiel ein neues Smartphone-Modell. Dieses Smartphone-Modell wurde in einem Monat 10.000 Mal verkauft – wie wahrscheinlich ist es also, dass sich das Modell in einem Monat 5.000 Mal verkauft? Oder vielleicht 20.000 Mal? Hier könnte die Formel der poisson distribution angewendet werden.
Beispiel einer poisson distribution: Meteorschauer
Wir könnten mit Website-Fehlern fortfahren, um ein Problem zu veranschaulichen, das mit einer poisson distribution gelöst werden kann, aber ich schlage etwas Größeres vor. Als ich ein Kind war, nahm mich mein Vater manchmal mit in unseren Garten, um Meteorschauer zu beobachten (oder zu versuchen, sie zu beobachten) . Wir waren keine Weltraumfreaks, aber zu sehen, wie Objekte aus dem Weltall am Himmel verglühten, war Grund genug für uns, nach draußen zu gehen, obwohl Meteorschauer anscheinend immer in den kältesten Monaten auftraten .
Wir können die Anzahl der beobachteten Meteore als poisson distribution modellieren, da die Meteore unabhängig sind, die durchschnittliche Anzahl der Meteore pro Stunde (kurzfristig) konstant ist und – dies ist eine Näherung – Meteore nicht gleichzeitig auftreten.
Um die poisson distribution zu charakterisieren, benötigen wir lediglich den Ratenparameter, also die Anzahl der Ereignisse pro Intervall * Intervalllänge. Bei einem typischen Meteorschauer können wir durchschnittlich fünf Meteore pro Stunde oder alle 12 Minuten einen erwarten. Aufgrund der begrenzten Geduld eines kleinen Kindes (insbesondere in einer eiskalten Nacht) blieben wir nie länger als 60 Minuten draußen, also verwenden wir diese Zeitspanne. Aus diesen Werten erhalten wir:
Fünf erwartete Meteore bedeuten, dass dies die wahrscheinlichste Anzahl an Meteoren ist, die wir in einer Stunde beobachten würden. Laut meinem pessimistischen Vater bedeutete das, dass wir in einer Stunde höchstens drei Meteore sehen würden. Um seine Vorhersage anhand des Modells zu testen, können wir die Poisson-PMF-Verteilung verwenden, um die Wahrscheinlichkeit zu ermitteln, in einer Stunde genau drei Meteore zu sehen:
Wir erhalten 14 Prozent oder etwa 1/7. Wenn wir eine Woche lang jede Nacht eine Stunde lang nach draußen gingen und beobachteten, könnten wir davon ausgehen, dass mein Vater einmal Recht hat! Wir können andere Werte in der Gleichung verwenden, um die Wahrscheinlichkeit verschiedener Ereigniszahlen zu erhalten und die PMF-Verteilung zu konstruieren. Dies von Hand zu tun ist mühsam, daher verwenden wir Python- Berechnung und -Visualisierung (die Sie in diesem Jupyter-Notebook sehen können ).
Die folgende Grafik zeigt die Wahrscheinlichkeits-Massenfunktion für die Anzahl der Meteore in einer Stunde mit einem Durchschnitt von 12 Minuten zwischen den Meteoren, dem Ratenparameter (das ist dasselbe, wie wenn man sagt, dass mit fünf Meteoren in einer Stunde zu rechnen ist).
Die wahrscheinlichste Anzahl von Meteoren ist fünf, der Ratenparameter der Verteilung. (Aufgrund einer Eigenart der Zahlen haben vier und fünf die gleiche Wahrscheinlichkeit, nämlich 18 Prozent). Wie bei jeder Verteilung gibt es einen wahrscheinlichsten Wert, aber es gibt auch eine große Bandbreite möglicher Werte. Wir könnten beispielsweise null Meteore sehen oder mehr als 10 in einer Stunde. Um die Wahrscheinlichkeiten dieser Ereignisse zu ermitteln, verwenden wir dieselbe Gleichung, berechnen dieses Mal aber die Summen der Wahrscheinlichkeiten (Einzelheiten finden Sie im Notizbuch ).
Wir haben bereits berechnet, dass die Wahrscheinlichkeit, genau drei Meteore zu sehen, bei etwa 14 Prozent liegt. Die Wahrscheinlichkeit, drei oder weniger Meteore in einer Stunde zu sehen, beträgt 27 Prozent, was bedeutet, dass die Wahrscheinlichkeit, mehr als drei zu sehen, 73 Prozent beträgt. Ebenso beträgt die Wahrscheinlichkeit, dass mehr als fünf Meteore zu sehen sind, 38,4 Prozent, während wir in 61,6 Prozent der Stunden damit rechnen können, fünf oder weniger Meteore zu sehen. Obwohl die Wahrscheinlichkeit gering ist, besteht eine Wahrscheinlichkeit von 1,4 Prozent, mehr als zehn Meteore in einer Stunde zu beobachten!
Um diese möglichen Szenarien zu visualisieren, können wir ein Experiment durchführen, bei dem unsere Schwester 10.000 Stunden lang die Anzahl der Meteore aufzeichnet, die sie stündlich sieht. Die Ergebnisse sind im folgenden Histogramm dargestellt:
(Dies ist nur eine Simulation. Bei der Erstellung dieses Artikels kam keine Schwester zu Schaden.)
In einigen glücklichen Nächten sahen wir zehn oder mehr Meteore pro Stunde, häufiger jedoch vier oder fünf Meteore.
Experimentieren mit dem Ratenparameter der poisson distribution
Der Ratenparameter λ ist die einzige Zahl, die wir zur Definition der poisson distribution benötigen. Da es sich jedoch um ein Produkt aus zwei Teilen handelt (Ereignisse/Intervall * Intervalllänge), gibt es zwei Möglichkeiten, ihn zu ändern: Wir können die Ereignisse/Intervall erhöhen oder verringern, und wir können die Intervalllänge erhöhen oder verringern.
Ändern wir zunächst den Ratenparameter, indem wir die Anzahl der Meteore pro Stunde erhöhen oder verringern, um zu sehen, wie sich diese Änderungen auf die Verteilung auswirken. Für dieses Diagramm behalten wir den Zeitraum konstant bei 60 Minuten bei.
In jedem Fall ist die wahrscheinlichste Anzahl von Meteoren in einer Stunde die erwartete Anzahl von Meteoren, der Ratenparameter. Bei 12 Meteoren pro Stunde (MPH) beträgt unser Ratenparameter beispielsweise 12 und es besteht eine 11-prozentige Chance, genau 12 Meteore in einer Stunde zu beobachten. Wenn unser Ratenparameter steigt, sollten wir erwarten, mehr Meteore pro Stunde zu sehen.
Eine weitere Möglichkeit besteht darin, die Intervalllänge zu erhöhen oder zu verringern. Hier ist dieselbe Darstellung, aber dieses Mal belassen wir die Anzahl der Meteore pro Stunde konstant bei fünf und ändern die Dauer unserer Beobachtung.
Es ist keine Überraschung, dass wir mit mehr Meteoriten rechnen, je länger wir draußen bleiben.
Verwenden der poisson distribution zur Bestimmung der Wartezeit für Poisson-Prozesse
Ein interessanter Aspekt eines Poisson-Prozesses besteht darin, herauszufinden, wie lange wir bis zum nächsten Ereignis warten müssen (manchmal auch als Zwischenankunftszeit bezeichnet). Betrachten wir die Situation: Meteore erscheinen im Durchschnitt alle 12 Minuten. Wie lange müssen wir voraussichtlich warten, um den nächsten Meteor zu sehen, wenn wir zu einem zufälligen Zeitpunkt ankommen? Mein Vater hat immer (diesmal optimistisch) behauptet, wir müssten nur sechs Minuten auf den ersten Meteor warten, was unserer Intuition entspricht. Lassen Sie uns Statistiken und Teile der poisson distribution formel verwenden, um zu sehen, ob unsere Intuition richtig ist.
Ich werde nicht näher auf die Herleitung eingehen (sie ergibt sich aus der Wahrscheinlichkeitsmassenfunktionsgleichung), aber die Zeit, die wir voraussichtlich zwischen Ereignissen warten müssen, ist eine abnehmende Exponentialfunktion. Die Wahrscheinlichkeit, eine bestimmte Zeit zwischen aufeinanderfolgenden Ereignissen zu warten, nimmt exponentiell mit zunehmender Zeit ab. Die folgende Gleichung zeigt die Wahrscheinlichkeit, länger als eine bestimmte Zeit zu warten.
In unserem Beispiel haben wir ein Ereignis alle 12 Minuten, und wenn wir die Zahlen einsetzen, erhalten wir eine Wahrscheinlichkeit von 60,65 Prozent, länger als sechs Minuten zu warten. So viel zur Vermutung meines Vaters! Wir können davon ausgehen, dass wir länger als 30 Minuten warten müssen, also in etwa 8,2 Prozent der Fälle. (Beachten Sie, dass dies die Zeit zwischen jedem aufeinanderfolgenden Ereignispaar ist. Die Wartezeiten zwischen Ereignissen sind ohne Gedächtnis, sodass die Zeit zwischen zwei Ereignissen keine Auswirkung auf die Zeit zwischen anderen Ereignissen hat. Diese Gedächtnislosigkeit ist auch als Markow-Eigenschaft bekannt ).
Ein Diagramm hilft uns, die exponentiell abnehmende Wahrscheinlichkeit der Wartezeit zu visualisieren:
Es besteht eine 100-prozentige Wahrscheinlichkeit, länger als null Minuten zu warten, und eine nahezu nullprozentige Wahrscheinlichkeit, länger als 80 Minuten zu warten. Da es sich hier um eine Verteilung handelt, gibt es wiederum eine große Bandbreite möglicher Zwischenankunftszeiten.
Wenn wir die Gleichung umstellen, können wir damit die Wahrscheinlichkeit einer Wartezeit ermitteln, die kürzer oder gleich einer bestimmten Zeit ist:
In 39,4 Prozent der Fälle müssen wir höchstens sechs Minuten auf einen Meteor warten. Wir können auch die Wahrscheinlichkeit für eine bestimmte Wartezeit ermitteln: Die Wahrscheinlichkeit, zwischen 5 und 30 Minuten auf den nächsten Meteor zu warten, liegt bei 57,72 Prozent.
Um die Verteilung der Wartezeiten zu visualisieren, können wir erneut ein (simuliertes) Experiment durchführen. Wir simulieren eine Beobachtung von 100.000 Minuten mit einer durchschnittlichen Rate von einem Meteor pro 12 Minuten. Dann ermitteln wir die Wartezeit zwischen jedem Meteor, den wir sehen, und stellen die Verteilung dar.
Die wahrscheinlichste Wartezeit beträgt eine Minute, aber das unterscheidet sich von der durchschnittlichen Wartezeit. Versuchen wir, die Frage zu beantworten: Wie lange müssen wir durchschnittlich zwischen Meteorbeobachtungen warten?
Um die Frage nach der durchschnittlichen Wartezeit zu beantworten, führen wir 10.000 Einzelversuche durch, wobei wir den Himmel jedes Mal 100.000 Minuten lang beobachten und die Zeit zwischen jedem Meteor aufzeichnen. Die folgende Grafik zeigt die Verteilung der durchschnittlichen Wartezeit zwischen Meteoren aus diesen Versuchen:
Der Durchschnitt der 10.000 Durchläufe beträgt 12,003 Minuten. Überraschenderweise ist dieser Durchschnitt auch die durchschnittliche Wartezeit, bis wir den ersten Meteor sehen, wenn wir zu einem zufälligen Zeitpunkt ankommen. Dies mag zunächst kontraintuitiv erscheinen: Wenn Ereignisse im Durchschnitt alle 12 Minuten auftreten, warum müssen wir dann die gesamten 12 Minuten warten, bevor wir ein Ereignis sehen? Die Antwort ist, dass wir eine durchschnittliche Wartezeit berechnen und dabei alle möglichen Situationen berücksichtigen principal component analysis.
Wenn die Meteore alle 12 Minuten genau kämen und es keine Zufälligkeiten gäbe, dann wäre die durchschnittliche Zeit, die wir warten müssten, um den ersten zu sehen, sechs Minuten. Da die Wartezeit jedoch eine Exponentialverteilung ist, müssen wir manchmal eine Stunde warten, was die häufigeren Fälle überwiegt, in denen wir weniger als 12 Minuten warten. Die durchschnittliche Zeit, um den ersten Meteor zu sehen, gemittelt über alle Vorkommnisse, ist die gleiche wie die durchschnittliche Zeit zwischen den Ereignissen. Die durchschnittliche Wartezeit für das erste Ereignis in einem Poisson-Prozess ist als Wartezeitparadoxon bekannt .
Lassen Sie uns zur abschließenden Visualisierung eine zufällige Simulation einer einstündigen Beobachtung durchführen.
Nun, dieses Mal bekamen wir genau das erwartete Ergebnis: fünf Meteore. Wir mussten 15 Minuten auf den ersten und 12 Minuten auf den nächsten warten. In diesem Fall lohnt es sich, das Haus für die Himmelsbeobachtung zu verlassen!
Wenn Sie das nächste Mal merken, dass Sie beim Statistikunterricht die Konzentration verlieren, können Sie dem Lehrer ruhig nicht mehr zuhören. Suchen Sie sich stattdessen ein interessantes Problem und lösen Sie es mithilfe der Statistiken, die Sie lernen möchten. Die Anwendung technischer Konzepte hilft Ihnen dabei, den Stoff zu lernen und besser zu verstehen, wie Statistiken uns helfen, die Welt zu verstehen. Bleiben Sie vor allem neugierig: Es gibt viele erstaunliche Phänomene auf der Welt und die Datenwissenschaft ist ein hervorragendes Werkzeug, um sie zu erforschen.
Häufig gestellte Fragen
Sie können eine poisson distribution verwenden, wenn Sie die Wahrscheinlichkeit ermitteln müssen, dass eine Anzahl von Ereignissen innerhalb eines bestimmten Zeit- oder Raumintervalls eintritt. Diese Ereignisse müssen zufällig, unabhängig voneinander und mit einer konstanten Durchschnittsrate eintreten, um für eine poisson distribution anwendbar zu sein.
Damit es sich bei einem Ereignisprozess um einen Poisson-Prozess handelt, müssen die Ereignisse mit einer konstanten Durchschnittsrate und unabhängig voneinander auftreten. Außerdem dürfen keine zwei Ereignisse gleichzeitig auftreten.