Några tentatips

Här följer en checklista över saker som är bra att kunna (och/eller ha med sig på formelbladet) när man skriver tentan:

Beskrivande statistik:

  • Medelvärde, median, stickprovsstandardavvikelse, stickprovsvarians, och andra läges- och spridningsmått.
  • Histogram.
  • Lådagram.
  • Korrelationskoefficient.

Grundläggande sannolikhetsteori:

  • Räkneregler för sannolikheter, typ $latex P(A^*)=1-P(A)$.
  • Oberoende händelser.
  • Oförenliga händelser.
  • Betingade sannolikheter.

Slumpvariabler:

  • Diskreta slumpvariabler:
    • Att räkna med sannolikhetsfunktion.
    • Viktiga fördelningar: binomial-, Poisson-.
  • Kontinuerliga slumpvariabler:
    • Att räkna med täthetsfunktioner.
    • Viktiga fördelningar: normal-, exponential-, likformig.
    • Räkna ut sannolikheter för normalfördelningen med ”tricket” och tabell.
  • Väntevärde och varians:
    • Definitioner, hur man räknar ut dem.
    • Väntevärde och varians för viktiga fördelningar, t.ex. veta att om $latex X\sim Bin(n,p)$ så är $latex E(X)=np$ och $latex V(X)=np(1-p)$.
    • Räkneregler för summor av slumpvariabler.
  • Centrala gränsvärdessatsen.

 Skattningar:

  • Formler för de vanliga skattningarna av $latex \mu$ och $latex \sigma^2$ i $latex N(\mu,\sigma^2)$ samt $latex p$ i $latex Bin(n,p)$.
  • Medelfel för olika skattningar.
  • Hur man visar väntevärdesriktighet och jämför skattningar.

Konfidensintervall:

  • Formler för de konfidensintervall som vi har gått igenom: för $latex \mu$, $latex \mu_X-\mu_Y$, $latex p$ och $latex p_1-p_2$.
  • Veta när de olika konfidensintervallen för $latex \mu$ ska användas ($latex \sigma$ känd/okänd, normalfördelning/inte normalfördelning…).
  • Tumreglerna för när konfidensintervallen för $latex p$ och $latex p_1-p_2$ får användas.
  • Tolkning av resultatet när man beräknat ett konfidensintervall. När är något statistiskt säkerställt?

Regression:

  • Tolkning av $latex k$ och $latex m$ i funktionen $latex y=kx+m$.
  • Skattning av $latex k$ och $latex m$.
  • Förklaringsgraden $latex R^2$ och hur den tolkas.
  • Konfidensintervall för $latex k$.
  • Prediktion $latex y_0=\hat{k}x_0+\hat{m}$.
  • Konfidensintervall för $latex E(Y_0)$ (det förväntade värdet då $latex x=x_0$).
  • Prediktionsintervall för $latex Y_0$ (vad en observation kan tänkas bli då $latex x=x_0$).

Allmänna tips:

  • Kolla upp hur du kan använda din räknedosa för att räkna ut skattningar och sannolikheter.
  • När du använder räkneregeln för variansen för en summa av slumpvariabler på tentan, tänk på att poängtera att den bara fungera om slumpvariablerna är oberoende! (Annars blir det poängavdrag…)
  • När du använder centrala gränsvärdessatsen på tentan, tänk på att skriva att du använder CGS! (Annars blir det poängavdrag…) 
  • De konfidensintervall som vi har stött på har formen $latex skattning \pm kvantil \cdot medelfel$. Om du har svårt att komma ihåg vad medelfelet för olika skattningar är så kan du alltså försöka komma ihåg att de ingår i konfidensintervallsformeln!
  • Du får skriva upp lösningar på gamla tentaproblem på ditt formelblad!

Föreläsning 14 – 6/3

På kursen sista föreläsning gick vi igenom regler och upplägg för tentan. Vi räknade dessutom ett antal gamla tentaproblem. Sex gamla tentor finns för nedladdning här.

Slides från föreläsningen finns här. Där står det också hur reglerna kring det handskrivna formelbladet som man får ta med sig ser ut.

Jag kommer att besöka tentasalen strax efter kl 9 samt runt 11-11.30, så att det finns möjlighet att ställa frågor när ni skriver tentan.

Föreläsning 13 – 3/3

På kursens näst sista föreläsning gick vi igenom prediktion och prediktionsintervall i linjära regressionsmodeller. Vi gör prediktioner inom alla möjliga områden dagligen och varje morgon hittar man nya exempel i våra dagstidningar. Den här veckan har vi exempelvis kunnat läsa om prediktioner om hur trafiken kommer att se ut i Uppsala 2013, huruvida räntan kommer att sänkas i år och resultatet i slutspelet i herrhockeyns Elitserie. För att inte tala om alla prediktioner om vädret

Med hjälp av regressionsmodeller så kan vi göra prediktioner som bygger på data snarare än magkänsla. Det är dock svårt att göra bra riktigt prediktioner, vilket diskuteras i den populärvetenskapliga boken The Signal and the Noise: Why So Many Predictions Fail – But Some Don’t av Nate Silver, som kom ut förra året.

Slides från föreläsningen finns här. Det finns inga särskilda tavelanteckningar den här gången – de första exemplen finns på tavelanteckningar från föreläsning 12 medan de avslutande exemplen kommer från gamla tentor.

Föreläsning 12 – 28/2

På kursens tolfte föreläsning går vi igenom regression, vilket är ett snofsigt namn för anpassning av räta linjer. Vi undersöker hur man kan beskriva samband mellan två variabler utifrån insamlade data.

Man vill beskriva sambandet dels för att förstå det och dels för att kunna göra förutsägelser om framtiden. På föreläsningen hann vi fram till sidan 19, och hann därmed inte riktigt med att diskutera exempel där förutsägelserna verkar rimliga och exempel där de kan bli väldigt fel. Vi kommer därför att prata lite om det på nästa föreläsning. Ett  exempel på hur fel det kan bli finns hos XKCD.

En del studenter brukar ha som tentastrategi att strunta i regression eftersom det är det sista som tas upp i kursen. Det är dock en ovanligt dålig strategi – det kommer alltid ett regressionsproblem på tentan och det är nästan alltid samma typ av problem! Regressionsproblemet ger alltså säkra poäng för den som lär sig lösa standardproblemet som brukar dyka upp på tentan.

Slides från föreläsningen finns här. Tavelanteckningar finns här.

Föreläsning 9 – 20/2

På den nionde föreläsning pratade vi om konfidensintervall och om hur man kan använda dessa för att beskriva osäkerheten i sina skattningar. Vi tittade på hur man får fram konfidensintervall för väntevärdet $latex \mu$ i tre olika situationer: normalfördelning med känt $latex \sigma$, normalfördelning med okänt $latex \sigma$ samt fallet då man inte har normalfördelning men har ett stort stickprov.

Slides finns här. Tavelanteckningar kommer senare.

Föreläsning 8 – 14/2

På den åttonde föreläsningen funderar vi över hur man exempelvis kan ta reda på vilka värden på $latex \mu$ och $latex \sigma^2$ som är rimliga om man inte vet något annat än att $latex X\sim N(\mu,\sigma^2)$. Lösningen är att använda sig av statistiska skattningar. Vi ser att en skattning kan betraktas som en slumpvariabler, vilket innebär att vi kan jämföra olika metoder för skattningar med hjälp av väntevärden och varianser.

Slides finns här. Tavelanteckningar finns här. R-koden till exemplen (hål i ost och normalfördelningsundersökning finns nedan).

Simulering av ostexperimentet:

Undersökning av normalfördelningsantaganden:

Sannolikheter och statistik med räknedosan

Här kommer några länktips för hur man kan beräkna sannolikheter och räkna ut exempelvis medelvärden med hjälp av moderna räknedosor.

TI-83

Tips på hur man kan räkna ut medelvärden, standardavvikelser och liknande för ett datamaterial finns på här. Funktionen 1-Var Stats ger bland annat följande resultat:

$latex \bar{x}$ = medelvärdet
$latex \sum_{i=1}^n x_i$
$latex \sum_{i=1}^n x_i^2$
$latex s_x=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1} (x_i-\bar{x})^2}$ = stickprovsstandardavvikelsen
$latex \sigma_x=\sqrt{s^2}=\sqrt{\frac{1}{n}\sum_{i=1} (x_i-\bar{x})^2}$, vilket alltså inte är stickprovsstandardavvikelsen eftersom man delat med $n$ istället för $n-1$.

Räknedosan kan också användas för att räkna ut sannolikheter för exempelvis binomialfördelningen. Funktionen binompdf räknar ut sannolikhetsfunktionen $latex P(X=k)$ med binomcdf räknar ut fördelningsfunktionen $latex P(X\leq k)$.

Andra fördelningar som finns är Poissonfördelningen och normalfördelningen. Om du vill använda de funktionerna, kontrollera att du använder dem på rätt sätt genom att exempelvis använda dem för att beräkna sannolikheter som vi räknat ut på annat sätt under föreläsningarna!

Casio

Vissa av Casios räknedosor går också att använda för att beräkna sannolikheter och olika läges- och spridningsmått för datamaterial. Jag har inte själv tillgång till en Casioräknare och har därför inte kunnat kontrollera hur det fungerar!

Sannolikheter kan beräknas genom att man väljer Menu -> STAT -> DIST. Det är sedan de funktioner som slutar på ”cd” som ger $latex P(X\leq k)$. Hur det fungerar beskrivs i den här pdf:en. Binomialfördelningen finns på sidorna 57-59, Poissonfördelningen på sidorna 60-61 och normalfördelningen på sidan 45.

Beräkning av medelvärde och standardavvikelse (standard deviation) beskrivs här och i ett gäng Youtube-klipp.

Lägg gärna till fler länkar i kommentarsfältet nedan om du har hittat bättre sidor än de som jag länkar till här!

Föreläsning 1 – 22/1

På kursen första föreläsning går vi igenom kursinformation om upplägg, examination, kursmål och tidigare kursvärderingar. Vi tittar sedan på några exempel på statistiska problem som dyker upp i olika typer av ingenjörsjobb. Slutligen diskuterar vi några grundläggande tekniker för att visualisera och sammanfatta datamaterial.

Slides från dagens föreläsning kan laddas ner här.

Som uppvärmning inför resten av kursen så rekommenderar jag varmt filmen The Joy of Stats med Hans Rosling. Den går att se på Gapminder webbplats.

Känner du dig osäker på om du vill se The Joy of Stats? Ta en titt på det här klippet från filmen först!