Selecteer de taal

De term "uitbijter" is gebaseerd op verborgen aannames. Een heel andere manier om hierover na te denken, is dat het punten zijn die niet passen bij je begrip van de verdeling van fouten die ten grondslag ligt aan de data-acquisitie.

Helaas gaan we vaak ten onrechte uit van een "normale" (Gaussische) verdeling van fouten. Wist je dat in een "normale" verdeling een afwijking van 11 sigma veel, veel, veel minder waarschijnlijk is dan een afwijking van 10 sigma? Klopt dat met je ervaring? Niet de mijne: afwijkingen van 11 sigma zijn in de praktijk ongeveer net zo waarschijnlijk als afwijkingen van 10 sigma. Ik zie geen van beide als uitbijters, ze vertellen je alleen dat je foutenverdeling niet "normaal" is.

In 1971 beschreven Abrahams en Keve (10.1107/S0567739471000305) een prachtige manier om het foutmodel te verifiëren: sorteer de fouten en maak, gebaseerd op de aanname dat ze een normale verdeling volgen, een grafiek (Normal Probability Plot) van hun waarde tegen hun verwachte waarde. De resulterende plot zal naar verwachting een rechte lijn zijn. Als dit niet het geval is, betekent dit dat de fouten geen Gaussische verdeling volgen.

Ik heb hier zelf last van gehad in mijn onderzoek. En voor mij was een zeer goede oplossing om de normale distributie te vervangen door een Student-distributie (10.1107/S0108767309009908). De beste parameter ν van die verdeling kan worden afgeleid door de Probability Plot te lineariseren. Door die procedure te volgen was het voor mij niet meer nodig om eventuele “uitbijters” te verwijderen: alle datapunten konden gebruikt worden in een analyse (10.1107/S0021889810018601).

Uitbijters bestaan niet. Als je denkt dat dit wel het geval is, begrijp je je foutmodel waarschijnlijk niet goed. En een goed begrip van je foutmodel kan je veel meer vertellen dan je kunt leren door uitbijters te verwerpen door het toepassen van een of andere empirische regel.

[Dit bericht is geschreven na het lezen van een door AI gegenereerde gids over het omgaan met uitbijters op LinkedIn.]