Izračunajte izvanredne vrijednosti

Autor: Charles Brown
Datum Stvaranja: 8 Veljača 2021
Datum Ažuriranja: 1 Srpanj 2024
Anonim
Izračunavanje osnovne vrijednosti - 2. dio - tekstualni zadaci (osnovni)
Video: Izračunavanje osnovne vrijednosti - 2. dio - tekstualni zadaci (osnovni)

Sadržaj

A outlier ili outlier u statistici je točka podataka koja se značajno razlikuje od ostalih točaka u uzorku. Često statističari često odstupaju od statističkih podataka na odstupanja ili pogreške u mjerenjima, nakon čega mogu ukloniti odstupanje iz skupa podataka. Ako doista odluče ukloniti iznimke iz skupa podataka, to bi moglo proizvesti značajne promjene u zaključcima izvedenim iz studije. Zbog toga je važno izračunati i odrediti odstupanja ako želite pravilno interpretirati statističke podatke.

Kročiti

  1. Saznajte kako uočiti moguće odstupanja. Prije nego što odlučimo hoćemo li ukloniti anomalne vrijednosti iz određenog skupa podataka, moramo prvo identificirati moguće odstupanja u skupu podataka. Općenito, outliers su točke podataka koje značajno odstupaju od trenda koji tvori ostale vrijednosti u skupu - drugim riječima, oni pucati ostalih vrijednosti. Obično je to lako prepoznati u tablicama i (posebno) u grafikonima. Ako se skup podataka vizualno graficira, odstupanja će biti "daleko" od ostalih vrijednosti. Na primjer, ako većina točaka u skupu podataka tvori ravnu crtu, odstupanja neće odgovarati toj liniji.
    • Pogledajmo skup podataka koji prikazuje temperature 12 različitih predmeta u sobi. Ako temperatura 11 predmeta oscilira za najviše nekoliko stupnjeva oko 21 ° C, dok jedan predmet, pećnica, ima temperaturu od 150 ° C, na prvi pogled možete vidjeti da je pećnica vjerojatno izvan mjesta.
  2. Poredaj sve podatkovne točke od najnižeg do najvišeg. Prvi korak u izračunavanju izvanrednih vrijednosti je pronalaženje medijana vrijednosti (ili srednje vrijednosti) skupa podataka. Ovaj zadatak postaje mnogo lakši ako su vrijednosti u skupu poredane od najniže do najviše. Dakle, prije nego što nastavite, sortirajte vrijednosti u svom skupu podataka ovako.
    • Nastavimo s gornjim primjerom. Evo našeg skupa podataka koji prikazuje temperature u stupnjevima Fahrenheita različitih predmeta u sobi: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ako vrijednosti u skupu sortiramo od najniže do najviše, to postaje naš novi skup: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Izračunajte medijan skupa podataka. Medijana skupa podataka je točka podataka u kojoj je polovica podataka iznad njega, a polovica podataka ispod nje - to je zapravo "središte" skupa podataka. Ako skup podataka sadrži neparan broj bodova, medijanu je lako pronaći - medijan je točka s onoliko točaka gore kao ispod. Ako postoji paran broj točaka, jer ne postoji jedno središte, morate uzeti prosjek dviju središnjih točaka da biste pronašli medijan. Pri izračunavanju odstupanja, na medijan se obično odnosi varijabla Q2 - jer se ona nalazi između Q1 i Q3, prvog i trećeg kvartila. Te ćemo varijable odrediti kasnije.
    • Neka vas ne zbune skupovi podataka s parnim brojem bodova - prosjek dviju srednjih točaka često je broj koji nije u samom skupu podataka - to je u redu. Međutim, ako su dvije srednje točke iste, srednja vrijednost će naravno biti i ovaj broj - također ovo u redu.
    • U našem primjeru imamo 12 bodova. Srednja dva pojma su točke 6, odnosno 7 - 70, odnosno 71. Dakle, medijan našeg skupa podataka je srednja vrijednost ove dvije točke: ((70 + 71) / 2) =70,5.
  4. Izračunaj prvi kvartil. Ova točka, koju označavamo varijablom Q1, podatkovna je točka ispod koje leži 25 posto (ili četvrtina) promatranja. Drugim riječima, ovo je središte svih točaka u vašem skupu podataka ispod medijan. Ako je paran broj vrijednosti ispod medijana, ponovno morate uzeti prosjek dviju srednjih vrijednosti da biste pronašli Q1, kao što ste možda i sami odredili medijanu.
    • U našem primjeru, šest točaka je iznad medijane i šest točaka ispod nje. Dakle, da bismo pronašli prvi kvartil, moramo uzeti prosjek dviju srednjih točaka u donjih šest bodova. Točke 3 i 4 donjih šest su 70, pa je njihova srednja vrijednost ((70 + 70) / 2) =70. Dakle, naša vrijednost za Q1 je 70.
  5. Izračunaj treći kvartil. Ta je točka, koju označavamo varijablom Q3, podatkovna točka iznad koje leži 25 posto podataka. Pronalaženje Q3 je praktički isto što i pronalazak Q1, osim što u ovom slučaju promatramo točke iznad medijan.
    • Nastavljajući gornji primjer, vidimo da su dvije srednje točke od šest točaka iznad medijana 71 i 72. Srednja vrijednost ove dvije točke je ((71 + 72) / 2) =71,5. Dakle, naša vrijednost za Q3 je 71,5.
  6. Pronađite interkvartilni raspon. Sad kad smo utvrdili Q1 i Q3, moramo izračunati udaljenost između ove dvije varijable. Udaljenost između Q1 i Q3 možete pronaći oduzimanjem Q1 od Q3. Vrijednost koju dobijete za interkvartilni raspon presudna je za određivanje granica za točke koje ne odstupaju u vašem skupu podataka.
    • U našem primjeru vrijednosti za Q1 i Q3 su 70, odnosno 71,5. Da bismo pronašli međukvartilni raspon, izračunavamo Q3 - Q1: 71,5 - 70 =1,5.
    • To djeluje čak i ako su Q1, Q3 ili oba broja negativna. Na primjer, da su naše vrijednosti za Q1 -70, interkvartilni raspon bio bi 71,5 - (-70) = 141,5, što je točno.
  7. Pronađite "Unutarnja ograničenja" skupa podataka. Izvanredne vrijednosti možete prepoznati utvrđivanjem spadaju li unutar brojnih ograničenja; takozvane "unutarnje granice" i "vanjske granice". Točka koja pada izvan unutarnjih granica skupa podataka klasificira se kao jedna blagi outlier, a točka izvan vanjskih granica klasificirana je kao jedna krajnji outlier. Da biste pronašli unutarnje granice skupa podataka, prvo pomnožite interkvartilni raspon s 1,5. Dodajte rezultat Q3 i oduzmite ga od Q1. Dva su rezultata unutarnja ograničenja vašeg skupa podataka.
    • U našem primjeru interkvartilni raspon je (71,5 - 70), odnosno 1,5. Pomnožite ovo s 1,5 da biste dobili 2,25. Taj broj dodamo Q3 i oduzmemo od Q1 da bismo pronašli unutarnje granice kako slijedi:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Dakle, unutarnje granice jesu 67,75 i 73,75.
    • U našem skupu podataka, samo je temperatura pećnice - 300 stupnjeva Fahrenheita - izvan tog raspona. Dakle, ovo je možda blago odstupanje. Međutim, tek trebamo utvrditi je li ova temperatura ekstremno neobična, pa nemojmo još prebrzo donositi zaključke.
  8. Pronađite "vanjska ograničenja" skupa podataka. To radite na isti način kao i s unutarnjim granicama, s jedinom razlikom što pomnožite interkvartilnu udaljenost s 3 umjesto s 1,5. Zatim rezultat dodate Q3 i oduzmete od Q1 da biste pronašli vanjske granične vrijednosti.
    • U našem primjeru pomnožimo interkvartilnu udaljenost s 3 da bismo dobili (1,5 * 3) ili 4,5. Sada možemo pronaći vanjske granice na isti način kao i unutarnje:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Dakle, vanjske granice su 65,5 i 76.
    • Točke podataka koje se nalaze izvan vanjskih granica smatraju se ekstremnim izvanrednim rezultatima. U našem primjeru temperatura pećnice, 300 stupnjeva Fahrenheita, znatno je izvan vanjskih granica. Dakle, temperatura pećnice je sigurno krajnji outlier.
  9. Koristite kvalitativnu procjenu da biste utvrdili trebate li "izbaciti" krajnje vrijednosti. Pomoću gornje metode možete utvrditi jesu li određene točke blaži, krajnji ili uopće ne ističu. Ali nemojte pogriješiti - prepoznavanje točke kao odstupanja čini je samo jednom kandidat da se ukloni iz skupa podataka, a ne odmah točka koja se uklanja mora pretvoriti u. The razlog zašto se outlier razlikuje od ostalih točaka u skupu presudno je pri određivanju treba li outliera ukloniti. Općenito se uklanjaju odstupanja uzrokovana nekom pogreškom - na primjer pogreškom u mjerenjima, snimkama ili eksperimentalnom dizajnu. Suprotno tome, oni koji nisu uzrokovani pogreškama i koji otkrivaju nove, nepredviđene informacije ili trendove obično postaju ne obrisano.
    • Sljedeći kriterij koji treba razmotriti jest utječu li odstupanja na sredinu skupa podataka na iskrivljen ili obmanjujući način. To je osobito važno ako planirate donositi zaključke na osnovu vrijednosti vašeg skupa podataka.
    • Procijenimo naš primjer. Budući da je najviši Malo je vjerojatno da je peć dosegla temperaturu od 300 ° F zbog neke nepredviđene prirodne sile, u našem primjeru možemo sa gotovo 100% sigurnošću zaključiti da je peć slučajno uključena, što je uzrokovalo abnormalno visoke temperature. Uz to, ako ne uklonimo odstupanje, srednja vrijednost našeg skupa podataka izlazi na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, dok je srednja bez outlier izlazi na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Budući da je odstupanje uzrokovano ljudskom pogreškom i budući da je netočno reći da je prosječna sobna temperatura bila blizu 32 ° C, moramo odabrati da koristimo naš odstupanje. ukloniti.
  10. Shvatite važnost (ponekad) zadržavanja izvanrednih vrijednosti. Iako bi neke izvanredne vrijednosti trebalo ukloniti iz skupa podataka jer su rezultat pogrešaka ili zato što iskrivljuju rezultate na zavaravajući način, ostale izvanredne vrijednosti treba sačuvati. Na primjer, ako je iskorak ispravno dobiven (i stoga nije rezultat pogreške) i / ili ako odstupanje nudi novi uvid u pojavu koja se mjeri, ne bi ga trebalo odmah ukloniti. Znanstveni eksperimenti posebno su osjetljive situacije kada je riječ o suočavanju s izvanrednim situacijama - pogrešno uklanjanje odstupanja može značiti bacanje važnih informacija o novom trendu ili otkriću.
    • Na primjer, zamislimo da dizajniramo novi lijek kako bi riba u ribogojilištu postala veća. Upotrijebimo naš stari skup podataka ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), s tom razlikom što svaka točka sada predstavlja masu ribe (u gramima ) nakon liječenja drugim eksperimentalnim lijekom od rođenja. Drugim riječima, prvi lijek dao je jednoj ribi masu od 71 grama, drugi je ribi dao masu od 70 grama i tako dalje. U ovoj situaciji 300 još ogroman outlier, ali ne bismo ga smjeli sada ukloniti. Jer, ako pretpostavimo da odstupanje nije rezultat pogreške, to predstavlja velik uspjeh u našem eksperimentu. Lijek koji je proizveo ribu od 300 grama djelovao je bolje od bilo kojeg drugog lijeka, pa je to to najviše važna podatkovna točka u našem skupu, umjesto najmanje važna podatkovna točka.

Savjeti

  • Ako pronađete odstupanja, pokušajte ih objasniti prije nego što ih uklonite iz skupa podataka; mogu ukazivati ​​na pogreške u mjerenju ili odstupanja u raspodjeli.

Potrebe

  • Kalkulator