Hypergeometriske fordelingsformler, ligninger, model

1283
Jonah Lester

Det hypergeometrisk fordeling er en diskret statistisk funktion, der er velegnet til beregning af sandsynligheden i randomiserede eksperimenter med to mulige resultater. Betingelsen, der kræves for at anvende den, er, at de er små populationer, hvor ekstraktionerne ikke erstattes, og sandsynlighederne ikke er konstante.. 

Derfor, når et element af befolkningen vælges for at kende resultatet (sandt eller falsk) af en bestemt egenskab, kan det samme element ikke vælges igen..

Figur 1. I en population af bolte som denne er der sikkert defekte prøver. Kilde: Pixabay.

Bestemt er det næste valgte element således mere sandsynligt at opnå et sandt resultat, hvis det forrige element havde et negativt resultat. Dette betyder, at sandsynligheden varierer, når elementer udvindes fra prøven..

De vigtigste anvendelser af den hypergeometriske fordeling er: kvalitetskontrol i processer med lille befolkning og beregning af sandsynligheder i hasardspil.

Hvad angår den matematiske funktion, der definerer den hypergeometriske fordeling, består den af ​​tre parametre, som er:

- Antal befolkningselementer (N)

- Prøvestørrelse (m) 

- Antal begivenheder i hele befolkningen med et gunstigt (eller ugunstigt) resultat af den undersøgte karakteristik (n).

Artikelindeks

  • 1 Formler og ligninger
    • 1.1 Vigtige statistiske variabler
  • 2 Model og egenskaber 
    • 2.1 Hovedegenskaber for den hypergeometriske fordeling
    • 2.2 Tilnærmelse med binomialfordeling
  • 3 eksempler
    • 3.1 Eksempel 1
    • 3.2 Eksempel 2
  • 4 Løst øvelser
    • 4.1 Øvelse 1
    • 4.2 Øvelse 2
    • 4.3 Øvelse 3
  • 5 Referencer

Formler og ligninger

Formlen for den hypergeometriske fordeling giver sandsynligheden P om hvad x gunstige tilfælde af en bestemt egenskab forekommer. Måden at skrive det matematisk på baggrund af de kombinerende tal er:

I ovenstående udtryk N, n Y m er parametre og x selve variablen. 

-Den samlede befolkning er N.

-Antallet af positive resultater af en bestemt binær karakteristik med hensyn til den samlede befolkning er n.

-Mængden af ​​prøveemner er m.

I dette tilfælde, x er en tilfældig variabel, der tager værdien x P (x) angiver sandsynligheden for forekomst af x gunstige tilfælde af den undersøgte egenskab.

Vigtige statistiske variabler

Andre statistiske variabler for den hypergeometriske fordeling er:

- Halvt μ = m * n / N

- Variation σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Typisk afvigelse σ som er kvadratroden af ​​variansen.

Model og egenskaber 

For at nå frem til modellen for den hypergeometriske fordeling starter vi med sandsynligheden for at opnå x gunstige tilfælde i en stikprøvestørrelse m. Nævnte prøve indeholder elementer, der overholder ejendommen, der undersøges, og elementer, der ikke gør det.

Huske på, at n repræsenterer antallet af gunstige tilfælde i den samlede befolkning på N elementer. Derefter beregnes sandsynligheden således:

P (x) = (# måder at få x # mislykkede måder) / (total antal måder at vælge)

Når vi udtrykker ovenstående i form af kombinatoriske tal, når vi frem til følgende sandsynlighedsfordelingsmodel:

Hovedegenskaber for den hypergeometriske fordeling

De er som følger:

- Prøven skal altid være lille, selvom populationen er stor.

- Elementerne i prøven ekstraheres en efter en uden at inkorporere dem tilbage i populationen.

- Ejendommen, der skal undersøges, er binær, det vil sige, den kan kun tage to værdier: 1 eller 0, O godt bestemte eller falsk.

I hvert elementekstraktionstrin ændres sandsynligheden afhængigt af de tidligere resultater.

Tilnærmelse ved hjælp af binomialfordelingen

En anden egenskab ved den hypergeometriske fordeling er, at den kan tilnærmes med binomialfordelingen, betegnet som Bi, så længe befolkningen N er stor og mindst 10 gange større end prøven m. I dette tilfælde vil det se sådan ud:

P (N, n, m; x) = Bi (m, n / N, x)           

Gælder så længe N er stor og N> 10m

Eksempler

Eksempel 1

Antag, at en maskine, der producerer skruer, og de akkumulerede data indikerer, at 1% kommer ud med fejl. Så i en kasse med N = 500 skruer vil antallet af defekte være:

n = 500 * 1/100 = 5

Sandsynligheder ved hjælp af den hypergeometriske fordeling

Antag, at fra den boks (det vil sige fra den population) tager vi en prøve på m = 60 bolte.

Sandsynligheden for, at ingen skruer (x = 0) i prøven er defekt, er 52,63%. Dette resultat opnås ved hjælp af den hypergeometriske fordelingsfunktion:

P (500, 5, 60, 0) = 0,5263

Sandsynligheden for, at x = 3 skruer i prøven er defekte, er: P (500, 5, 60, 3) = 0,0129.

På den anden side er sandsynligheden for, at x = 4 skruer i prøven tres er defekte: P (500, 5, 60; 4) = 0,0008.

Endelig er sandsynligheden for, at x = 5 skruer i prøven er defekte: P (500, 5, 60; 5) = 0.

Men hvis du vil vide sandsynligheden for, at der i denne prøve er mere end 3 defekte skruer, skal du opnå den kumulative sandsynlighed ved at tilføje:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Dette eksempel er illustreret i figur 2 opnået ved hjælp af GeoGebra en gratis software, der er meget brugt i skoler, institutter og universiteter.

Figur 2. Eksempel på hypergeometrisk fordeling. Udarbejdet af F. Zapata med GeoGebra.

Eksempel 2

Et spansk kortdæk har 40 kort, hvoraf 10 har guld og de resterende 30 ikke. Antag, at 7 kort trækkes tilfældigt fra det dæk, som ikke genindgår i bunken.

Hvis X er antallet af guld, der er til stede i de 7 trukkede kort, er sandsynligheden for, at der vil være x guld i en 7-korts træk, givet af den hypergeometriske fordeling P (40,10,7; x).

Lad os se dette sådan: For at beregne sandsynligheden for at have 4 guld i en 7-korts tegning bruger vi formlen for den hypergeometriske fordeling med følgende værdier:

Og resultatet er: 4,57% sandsynlighed.

Men hvis du vil vide sandsynligheden for at få mere end 4 kort, skal du tilføje:

P (4) + P (5) + P (6) + P (7) = 5,20%

Løst øvelser

Det følgende sæt øvelser skal illustrere og assimilere de begreber, der er præsenteret i denne artikel. Det er vigtigt, at læseren forsøger at løse dem på egen hånd, inden han ser på løsningen.

Øvelse 1

En kondomfabrik har fundet ud af, at ud af hver 1.000 kondomer, der produceres af en bestemt maskine, er 5 defekte. Til kvalitetskontrol tages 100 kondomer tilfældigt, og partiet afvises, hvis der er mindst en eller flere defekte. Svar:

a) Hvad er muligheden for, at mange 100 kasseres?

b) Er dette kvalitetskontrolkriterium effektivt??

Opløsning

I dette tilfælde vises meget store kombinatoriske tal. Beregning er vanskelig, medmindre en passende softwarepakke er tilgængelig.

Men da det er en stor population, og prøven er ti gange mindre end den samlede population, er det muligt at bruge tilnærmelsen af ​​den hypergeometriske fordeling ved binomialfordelingen:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)

I ovenstående udtryk C (100, x) er et kombinationsnummer. Derefter beregnes sandsynligheden for, at der er mere end en defekt således:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

Det er en fremragende tilnærmelse, hvis den sammenlignes med den værdi, der opnås ved at anvende den hypergeometriske fordeling: 0,4102

Det kan siges, at med en 40% sandsynlighed skal en batch på 100 profylaktiske stoffer kasseres, hvilket ikke er særlig effektivt..

Men hvis vi er lidt mindre krævende i kvalitetskontrolprocessen, og vi kun kasserer batchen på 100, hvis der er to eller flere mangler, vil sandsynligheden for at kassere batchen falde til kun 8%..

Øvelse 2

En plaststikmaskine fungerer på en sådan måde, at ud af hver 10 stykker kommer man ud deformeret. I en prøve på 5 stykker, hvor sandsynligt er det, at kun et stykke er defekt?.

Opløsning

Befolkning: N = 10

Antal n defekter for hver N: n = 1

Prøvestørrelse: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Derfor er der en 50% sandsynlighed for, at en stikprøve i en prøve på 5 kommer ud deformeret.

Øvelse 3

I et møde med unge gymnasieelever er der 7 damer og 6 herrer. Blandt pigerne studerer 4 humaniora og 3 videnskab. I drengegruppen studerer 1 humaniora og 5 videnskab. Beregn følgende:

a) Valg af tre piger tilfældigt: hvad er sandsynligheden for, at de alle studerer humaniora?.

b) Hvis tre deltagere til vennemødet vælges tilfældigt: Hvad er muligheden for, at tre af dem, uanset køn, studerer videnskab alle tre eller humaniora også alle tre?.

c) Vælg nu to venner tilfældigt, og ring x til den tilfældige variabel "antal af dem, der studerer humaniora". Mellem de to valgte skal du bestemme middelværdien eller forventet værdi af x og variansen σ ^ 2.

Løsning til 

Befolkningen er det samlede antal piger: N = 7. De, der studerer humaniora, er n = 4 af det samlede antal. Den tilfældige stikprøve af piger er m = 3.

I dette tilfælde er sandsynligheden for, at alle tre er humanistiske studerende, givet af den hypergeometriske funktion:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Så der er en sandsynlighed på 11,4% for, at tre tilfældigt valgte piger vil studere humaniora..

Løsning b

Værdierne, der skal bruges nu, er:

-Befolkning: N = 14

-Mængde, der studerer bogstaver, er: n = 6 og

-Prøvestørrelse: m = 3.

-Antal venner, der studerer humaniora: x

Ifølge dette betyder x = 3, at alle tre studerer humaniora, men x = 0 betyder, at ingen studerer humaniora. Sandsynligheden for, at alle tre studerer det samme, er givet af summen:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Derefter har vi en 21% sandsynlighed for, at tre mødedeltagere, valgt tilfældigt, vil studere det samme.

Løsning c

Her har vi følgende værdier:

N = 14 samlede population af venner, n = 6 samlede antal i befolkningen, der studerer humaniora, stikprøvestørrelsen er m = 2.

Håb er:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

Og variansen:

σ (x) ^ 2 =  m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =

= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 )  = 0,4521

Referencer

  1. Diskrete sandsynlighedsfordelinger. Gendannet fra: biplot.usal.es
  2. Statistik og sandsynlighed. Hypergeometrisk fordeling. Gendannet fra: projectdescartes.org
  3. CDPYE-UGR. Hypergeometrisk fordeling. Gendannet fra: ugr.es
  4. Geogebra. Klassisk geogebra, sandsynlighedsregning. Gendannet fra geogebra.org
  5. Prøv let. Løst problemer med hypergeometrisk fordeling. Gendannet fra: probafacil.com
  6. Minitab. Hypergeometrisk fordeling. Gendannet fra: support.minitab.com
  7. University of Vigo. Vigtigste diskrete distributioner. Gendannet fra: anapg.webs.uvigo.es
  8. Vitutor. Statistik og kombinatorik. Gendannet fra: vitutor.net
  9. Weisstein, Eric W. Hypergeometrisk distribution. Gendannet fra: mathworld.wolfram.com
  10. Wikipedia. Hypergeometrisk fordeling. Gendannet fra: es.wikipedia.com

Endnu ingen kommentarer