https://twitter.com/reinboth/status/869513746259038208

Christian Reinboth‏ @reinboth

Erstelle #Statistik-Übungsaufgaben für die Studis. Wer sagt, dass es immer um Lotto, Würfel oder das Ziehen von Kugeln aus Urnen gehen muss?

Aufgabe

Eine Behörde überwacht mit Hilfe einer Software die unverschlüsselte E-Mail-Kommunikation deutscher Internetnutzer*innen‚ Die Software, die E-Mails auf eine Reihe von Schlüsselbegriffen und Phrasen filtert, die auf illegale und / oder terroristische Aktivitäten hinweisen könnten, stuft eine tatsächlich Sicherheits- relevante Kommunikation mit einer sehr hohen Wahrscheinlichkeit von 99,5% als potentielle Bedrohung ein, Die Wahrscheinlichkeit dafür, dass eine harmlose E-Mail fälschlicherweise als potentielle Bedrohung klassifiziert wird, liegt dagegen nur bei 0,5%.

In Deutschland gibt es 71.000.000 Internetnutzer*innen. Nachfolgend gehen wir davon aus,

Wie groß ist die Wahrscheinlichkeit dafür, dass eine an einem beliebigen Tag durch die Bedrohungen zu 99,5% korrekt klassifizierende Software als potentielle Bedrohung eingestufte E-Mail auch tatsächlich auf eine reale Bedrohungslage hinweist?

Lösung

Richtig positive: ein viertel der 10 mails aller kriminellen zu 05% erkannt:

10000*10*0.25*0.0995 = 24875

False positives aller nicht-kriminellen: (71000000-10000)*10*0.005 = 3549500

Harmlose Emails von Kriminellen: 10000*10*0.75 = 75000

Davon 0.5% als verdächtig erkannt: 375 falsch positive von Kriminellen

Gesamt false positives: 3549500 + 375 = 3549875

f.p. + r.p: 3549875 + 24875 = 3574750

rp*100/(fp+rp): 24875*100/3574750 = 0.696

Die Wahrscheinlichkeit dafür, dass an einem beliebigen Tag eine als potentielle Bedrohung eingestufte Email tatsächlich eine reale Bedrohung ist, liegt bei 0.69 Prozent.

Oder: 3549500 Emails werden als potentielle Bedrohung eingestuft, sind aber von unbescholtenen Internetnutzern...

moin.mister-muffin.de: Writings/Statistik (last edited 2017-12-18 15:56:28 by josch)