Några tentatips

Här följer en checklista över saker som är bra att kunna (och/eller ha med sig på formelbladet) när man skriver tentan:

Beskrivande statistik:

  • Medelvärde, median, stickprovsstandardavvikelse, stickprovsvarians, och andra läges- och spridningsmått.
  • Histogram.
  • Lådagram.
  • Korrelationskoefficient.

Grundläggande sannolikhetsteori:

  • Räkneregler för sannolikheter, typ $latex P(A^*)=1-P(A)$.
  • Oberoende händelser.
  • Oförenliga händelser.
  • Betingade sannolikheter.

Slumpvariabler:

  • Diskreta slumpvariabler:
    • Att räkna med sannolikhetsfunktion.
    • Viktiga fördelningar: binomial-, Poisson-.
  • Kontinuerliga slumpvariabler:
    • Att räkna med täthetsfunktioner.
    • Viktiga fördelningar: normal-, exponential-, likformig.
    • Räkna ut sannolikheter för normalfördelningen med ”tricket” och tabell.
  • Väntevärde och varians:
    • Definitioner, hur man räknar ut dem.
    • Väntevärde och varians för viktiga fördelningar, t.ex. veta att om $latex X\sim Bin(n,p)$ så är $latex E(X)=np$ och $latex V(X)=np(1-p)$.
    • Räkneregler för summor av slumpvariabler.
  • Centrala gränsvärdessatsen.

 Skattningar:

  • Formler för de vanliga skattningarna av $latex \mu$ och $latex \sigma^2$ i $latex N(\mu,\sigma^2)$ samt $latex p$ i $latex Bin(n,p)$.
  • Medelfel för olika skattningar.
  • Hur man visar väntevärdesriktighet och jämför skattningar.

Konfidensintervall:

  • Formler för de konfidensintervall som vi har gått igenom: för $latex \mu$, $latex \mu_X-\mu_Y$, $latex p$ och $latex p_1-p_2$.
  • Veta när de olika konfidensintervallen för $latex \mu$ ska användas ($latex \sigma$ känd/okänd, normalfördelning/inte normalfördelning…).
  • Tumreglerna för när konfidensintervallen för $latex p$ och $latex p_1-p_2$ får användas.
  • Tolkning av resultatet när man beräknat ett konfidensintervall. När är något statistiskt säkerställt?

Regression:

  • Tolkning av $latex k$ och $latex m$ i funktionen $latex y=kx+m$.
  • Skattning av $latex k$ och $latex m$.
  • Förklaringsgraden $latex R^2$ och hur den tolkas.
  • Konfidensintervall för $latex k$.
  • Prediktion $latex y_0=\hat{k}x_0+\hat{m}$.
  • Konfidensintervall för $latex E(Y_0)$ (det förväntade värdet då $latex x=x_0$).
  • Prediktionsintervall för $latex Y_0$ (vad en observation kan tänkas bli då $latex x=x_0$).

Allmänna tips:

  • Kolla upp hur du kan använda din räknedosa för att räkna ut skattningar och sannolikheter.
  • När du använder räkneregeln för variansen för en summa av slumpvariabler på tentan, tänk på att poängtera att den bara fungera om slumpvariablerna är oberoende! (Annars blir det poängavdrag…)
  • När du använder centrala gränsvärdessatsen på tentan, tänk på att skriva att du använder CGS! (Annars blir det poängavdrag…) 
  • De konfidensintervall som vi har stött på har formen $latex skattning \pm kvantil \cdot medelfel$. Om du har svårt att komma ihåg vad medelfelet för olika skattningar är så kan du alltså försöka komma ihåg att de ingår i konfidensintervallsformeln!
  • Du får skriva upp lösningar på gamla tentaproblem på ditt formelblad!

Föreläsning 14 – 6/3

På kursen sista föreläsning gick vi igenom regler och upplägg för tentan. Vi räknade dessutom ett antal gamla tentaproblem. Sex gamla tentor finns för nedladdning här.

Slides från föreläsningen finns här. Där står det också hur reglerna kring det handskrivna formelbladet som man får ta med sig ser ut.

Jag kommer att besöka tentasalen strax efter kl 9 samt runt 11-11.30, så att det finns möjlighet att ställa frågor när ni skriver tentan.

Sannolikheter och statistik med räknedosan

Här kommer några länktips för hur man kan beräkna sannolikheter och räkna ut exempelvis medelvärden med hjälp av moderna räknedosor.

TI-83

Tips på hur man kan räkna ut medelvärden, standardavvikelser och liknande för ett datamaterial finns på här. Funktionen 1-Var Stats ger bland annat följande resultat:

$latex \bar{x}$ = medelvärdet
$latex \sum_{i=1}^n x_i$
$latex \sum_{i=1}^n x_i^2$
$latex s_x=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1} (x_i-\bar{x})^2}$ = stickprovsstandardavvikelsen
$latex \sigma_x=\sqrt{s^2}=\sqrt{\frac{1}{n}\sum_{i=1} (x_i-\bar{x})^2}$, vilket alltså inte är stickprovsstandardavvikelsen eftersom man delat med $n$ istället för $n-1$.

Räknedosan kan också användas för att räkna ut sannolikheter för exempelvis binomialfördelningen. Funktionen binompdf räknar ut sannolikhetsfunktionen $latex P(X=k)$ med binomcdf räknar ut fördelningsfunktionen $latex P(X\leq k)$.

Andra fördelningar som finns är Poissonfördelningen och normalfördelningen. Om du vill använda de funktionerna, kontrollera att du använder dem på rätt sätt genom att exempelvis använda dem för att beräkna sannolikheter som vi räknat ut på annat sätt under föreläsningarna!

Casio

Vissa av Casios räknedosor går också att använda för att beräkna sannolikheter och olika läges- och spridningsmått för datamaterial. Jag har inte själv tillgång till en Casioräknare och har därför inte kunnat kontrollera hur det fungerar!

Sannolikheter kan beräknas genom att man väljer Menu -> STAT -> DIST. Det är sedan de funktioner som slutar på ”cd” som ger $latex P(X\leq k)$. Hur det fungerar beskrivs i den här pdf:en. Binomialfördelningen finns på sidorna 57-59, Poissonfördelningen på sidorna 60-61 och normalfördelningen på sidan 45.

Beräkning av medelvärde och standardavvikelse (standard deviation) beskrivs här och i ett gäng Youtube-klipp.

Lägg gärna till fler länkar i kommentarsfältet nedan om du har hittat bättre sidor än de som jag länkar till här!

Föreläsning 6 – 8/2

På den sjätte föreläsningen tittar vi på kontinuerliga slumpvariabler. Vi introducerar likformig fördelning, exponentialfördelningen och den viktiga normalfördelningen.

Vi löser parkeringsplatsproblemet, som handlar om en summa av slumpvariabler. Vi undersöker därför beteendet hos summor av slumpvariabler, vilket resulterar i några räkneregler och den viktiga centrala gränsvärdessatsen, som säger att summor av slumpvariabler (under vissa förutsättningar) är approximativt normalfördelade.

Slides finns här. Tavelanteckningar finns här.

Föreläsning 5 – 4/2

På kursens fjärde föreläsning fördjupade vi oss lite mer om slumpvariabler. Vi införde de viktiga begreppen väntevärde och varians och börja titta på kontinuerliga slumpvariabler. Vi löste kretskortsproblemet och påbörjade lösningen till parkeringsplatsproblemet.

Slides finns här. Tavelanteckningar finns här. R-koden till exemplen finns här; några av exemplen går att köra direkt här nedanför.

Simulera av väntevärdet för antal ögon vid ett tärningskast:

Hur parametern $latex m$, som beskriver väntevärdet och variansen, påverkar Poissonfördelningen:

Högre $latex m$ ger större värden och större spridning!

Föreläsning 4 – 30/1

Under den fjärde föreläsningen löste vi några blandade problem om sannolikheter för händelser och slumpvariabler. Vi räknade bland annat några problem från gamla tentor och problem rörande binomial- och Poissonfördelningarna.

Slides från föreläsningen finns här. Mina tavelanteckningar dyker upp här så snart jag hinner skanna dem (troligen fredag)!

Det avslutande problemen, om spelet med bilen och getterna, kallas Monty Hall-problemet. Det finns en hel del att läsa och se om det på nätet – exempelvis en vansinnigt lång Wikipediasida eller olika videoklipp:

Föreläsning 3 – 28/1

Under dagens föreläsning introducerade vi begreppet slumpvariabel. Framförallt diskuterade vi diskreta slumpvariabler. Dessa betecknas ofta X och är ett tal som beskriver utfallet av ett försök vars utfall inte är känt på förhand.

Sannolikheterna för att en slumpvariabel antar vissa värden beskrivs av dess fördelning. Vissa fördelningar dyker upp i många vitt skilda situationer och är därför värda att ägna lite extra uppmärksamhet. Vi tittade på binomialfördelningen, som dyker upp när man upprepar ett försök flera oberoende gånger och räknar antal gånger man får ett visst resultat, samt Poissonfördelningen, som används för att modellera hur många gånger en ”sällsynt händelse” inträffar.

Slides från föreläsningen finns här. Mina tavelanteckningar dyker upp här så snart jag hinner skanna dem (troligen fredag).

paul

Poissonfördelningen dyker för övrigt upp i dokumentären The Joy of Stats, som jag tidigare tipsat om.

Föreläsning 2 – 23/1

På dagens föreläsning går vi igenom sannolikhetsteorins grunder. Slides kan laddas ner här, medan mina handskrivna anteckningar (motsvarande det som skrivs på tavlan) finns här.

Under föreläsningen kör vi en datorsimulering av tärningsslag med R. För den som vill prova hemma så finns koden nedan:

Du kan antingen klistra in koden i R eller testköra den direkt i din webbläsare genom att trycka på Evaluate-knappen ovan. Klicka sedan på länken till Rplot001.png för att se resultatet.

Sannolikhetsteori på nätet
Det finns gott om engelskspråkiga nätresurser som tar upp sannolikhetsberäkningar – exempelvis Wikipedia där en sammanfattning av grunderna finns. Bättre är Khan Academy, som har ett stort antal inspelade nätföreläsningar om grundläggande sannolikhetsteori. Hos Virtual Laboratories in Probability and Statistics finns en något mer avancerad introduktion till sannolikhetsteori, men också ett antal trevlig applets för att illustrera sannolikhetsproblem. Bland annat kan man titta på Venndiagram för kombinationer av händelser (exempelvis $latex A\cap B$). Deras notation skiljer sig något från den som vi använder; komplementet $latex A^*$ skriver de $latex A^C$.

Slutligen kanske följande ordlista kan vara nyttig när man beger sig ut på webben.

Liten engelsk-svensk statistisk ordlista
Central limit theorem = central gränsvärdessatsen
Coefficient of variation = variationskoefficient
Conditional = betingad
Confidence interval = konfidensintervall
Correlation (coefficent) = korrelation(skoefficient)
Cumulative distribution function = fördelningsfunktion
Dependent = beroende
Disjoint events = oförenliga händelser
Distribution = fördelning
Event = händelse
Expected value = väntevärde
Independent = oberoende
Law of large numbers = stora talens lag
Mean = medelvärde (för data), väntevärde (för fördelningar)
Median = median
Mode = typvärde
Random variable = slumpvariabel, stokastisk variabel
Range = variationsbredd
R-squared = förklaringsgrad
Probability = sannolikhet
Probability density function = täthetsfunktion
Sample = stickprov, datamaterial
Standard deviation = standardavvikelse
Uniform = likformig
Variance = varians