https://twitter.com/reinboth/status/869513746259038208
Christian Reinboth @reinboth
Erstelle #Statistik-Übungsaufgaben für die Studis. Wer sagt, dass es immer um Lotto, Würfel oder das Ziehen von Kugeln aus Urnen gehen muss?
Aufgabe
Eine Behörde überwacht mit Hilfe einer Software die unverschlüsselte E-Mail-Kommunikation deutscher Internetnutzer*innen‚ Die Software, die E-Mails auf eine Reihe von Schlüsselbegriffen und Phrasen filtert, die auf illegale und / oder terroristische Aktivitäten hinweisen könnten, stuft eine tatsächlich Sicherheits- relevante Kommunikation mit einer sehr hohen Wahrscheinlichkeit von 99,5% als potentielle Bedrohung ein, Die Wahrscheinlichkeit dafür, dass eine harmlose E-Mail fälschlicherweise als potentielle Bedrohung klassifiziert wird, liegt dagegen nur bei 0,5%.
In Deutschland gibt es 71.000.000 Internetnutzer*innen. Nachfolgend gehen wir davon aus,
- dass jeder Nutzer täglich 10 unverschlüsselte Mails verschickt, die von der Software gesichtet werden,
- dass 10000 Nutzer das Internet für die Vorbereitung illegaler oder terroristischer Aktivitäten nutzen
- und dass jede vierte Mail, die von einem dieser 10.000 Nutzer verschickt wird, einen auffindbaren Hinweis auf eine solche Aktivität enthält,
Wie groß ist die Wahrscheinlichkeit dafür, dass eine an einem beliebigen Tag durch die Bedrohungen zu 99,5% korrekt klassifizierende Software als potentielle Bedrohung eingestufte E-Mail auch tatsächlich auf eine reale Bedrohungslage hinweist?
Lösung
Richtig positive: ein viertel der 10 mails aller kriminellen zu 05% erkannt:
10000*10*0.25*0.0995 = 24875
False positives aller nicht-kriminellen: (71000000-10000)*10*0.005 = 3549500
Harmlose Emails von Kriminellen: 10000*10*0.75 = 75000
Davon 0.5% als verdächtig erkannt: 375 falsch positive von Kriminellen
Gesamt false positives: 3549500 + 375 = 3549875
f.p. + r.p: 3549875 + 24875 = 3574750
rp*100/(fp+rp): 24875*100/3574750 = 0.696
Die Wahrscheinlichkeit dafür, dass an einem beliebigen Tag eine als potentielle Bedrohung eingestufte Email tatsächlich eine reale Bedrohung ist, liegt bei 0.69 Prozent.
Oder: 3549500 Emails werden als potentielle Bedrohung eingestuft, sind aber von unbescholtenen Internetnutzern...