Course code STIN300

STIN300 Statistisk programmering i R

English course information

Søk etter andre emner

Viser emneinfo for studieåret 2020 - 2021.

Emneansvarlige: Jon Olav Vik
Medvirkende: Kathrine Frey Frøslie, Torgeir Rhodén Hvidsten
Studiepoeng: 5
Ansvarlig fakultet: Fakultet for kjemi, bioteknologi og matvitenskap
Frekvens: Årlig
Undervises på språk: EN, NO
(NO=norsk, EN=Engelsk)
Begrensning antall plasser:
100
Undervises i periode:
Emnet starter i januarblokk. Emnet har undervisning/vurdering i januarblokk.
Første gang: Studieår 2010-2011
Undervises hvor?: Campus Ås
Emnets innhold:

STIN300 tilbys primært til MSc og PhD-studenter som har det i eksisterende studieplaner. Nye interesserte anbefales å ta STIN100 ( https://www.nmbu.no/emne/STIN100 ), som gir bedre tid til den modningen dette stoffet erfaringsmessig trenger.

Første del av STIN300 gir en innføring i R-scripting, med fokus på bruk av tidyverse-pakkene ggplot2 og dplyr. Det legges vekt på visualisering av data, og strukturering og manipulering av data i et tabell-format. Etterhvert gjennomgås operatorer, variable, datatyper og grunnleggende datastrukturer.

Andre del går videre med bruk av kontrollstrukturer (løkker, tester), mer generelt om håndtering av filer og tekster og til slutt funksjoner.

Tredje del består i hovedsak av en obligatorisk prosjektoppgave. 

Læringsutbytte:

Studentene skal ved fullføring av kurset beherske en programmeringsbasert tilnærming til statistisk dataanalyse i R. Studentene skal kunne visualisere og manipulere data og lage egne funksjoner som benytter/modifiserer tilgjengelige funksjoner for å løse spesielle problemer som ikke kan løses med standard kode. Studentene skal også kunne presentere sine analyseresultater i en oversiktlig og vitenskapelig form, ved hjelp av tekst og grafikk.

KUNNSKAPER: Studentene skal få

  • forståelse av hvordan programmering kan automatisere krevende statistiske beregninger.
  • kjennskap til begrepsapparat, syntaks og konvensjoner for å beskrive, tilpasse og tolke statistiske modeller i R.

FERDIGHETER: Studentene skal kunne

  • tolke output av R sine statistiske modelleringsfunksjoner, f.eks. lm() for lineær regresjon.
  • lese inn data i ulike filformater som Excel, kommaskilt tekst, FASTA.
  • lage egne funksjoner som benytter tilgjengelige funksjoner for å løse problemer som ikke kan løses med standard kode.
  • presentere resultater av statistisk analyse i en vitenskapelig, oversiktlig form gjennom reproduserbare, kjørbare rapporter som fletter sammen forklarende tekst, programkode og output som tabeller og grafikk.
  • feilsøke problemer ved å lokalisere feil, reprodusere feilen på en mindre delmengde av problemet, steppe gjennom kode linje for linje osv.
  • orientere seg i dokumentasjon og hjelpetekster for R-pakker som implementerer statistiske metoder som studenten har kjennskap til.

GENERELL KOMPETANSE: Studentene skal være rustet til å anvende statistiske metoder i R på datasett som kommer dem i hende gjennom senere studier og arbeidsliv. Dette innebærer å få dataene inn i R, tilrettelegge dem på den form analysefunksjonene krever, kjøre analyser med hensiktsmessige innstillinger, og tolke og presentere resultatene i en form som er nyttig for sluttbrukeren.

Læringsaktiviteter:
Forelesninger kombinert med mye interaktiv programmering. Det legges stor vekt på at studenter arbeider aktivt med programmering med lærer tilgjengelig, og at vanskelige temaer på denne måten kan løftes fram og belyses.
Læringsstøtte:
Det er utviklet et skriftlig kursmateriell samt en del videoer som blir gjort tilgjengelig i Canvas.
Pensum:
Pensum vil bli spesifisert i begynnelsen av kurset, men vil i hovedsak hentes fra "Hands-on programming with R" (https://rstudio-education.github.io/hopr/) og "R for data science" (https://r4ds.had.co.nz).
Forutsatte forkunnskaper:
Statistikk tilsvarende STAT100.
Anbefalte forkunnskaper:
Introduksjon til programmering.
Obligatorisk aktivitet:
Det gis flere obligatoriske oppgaver som studentene må levere og få godkjent for å kunne gå opp til eksamen.
Vurderingsordning:
Skriftlig digital slutteksamen 3.5 timer (flervalg, bestått/ikke bestått).
Sensor:
Ekstern sensor evaluerer eksamensoppgavene, og sensurerer 25 utvalgte eksamensbesvarelser.
Merknader:
Studentene må ha egen laptop med Windows, Linux eller MAC OS.
Normert arbeidsmengde:
Forelesninger/øvinger 60 timer. Selvstudium 90 timer.
Opptakskrav:
Realfag
Undervisningstid:
4 timer kombinert forelesning/interaktiv programmering daglig i tre uker.
Eksamensdetaljer: :