Course code STIN100

STIN100 Biologisk data-analyse

Emnet kan ha endringer på grunn av koronarestriksjoner. Se Canvas og StudentWeb for info.

English course information

Søk etter andre emner

Viser emneinfo for studieåret 2021 - 2022.

Emneansvarlige: Jon Olav Vik, Torgeir Rhodén Hvidsten
Medvirkende: Jon Olav Vik, Simen Rød Sandve, Kathrine Frey Frøslie
Studiepoeng: 10
Ansvarlig fakultet: Fakultet for kjemi, bioteknologi og matvitenskap
Frekvens: Årlig
Undervises på språk: NO
(NO=norsk, EN=Engelsk)
Begrensning antall plasser:
800
Undervises i periode:
Emnet starter i høstparallellen. Emnet har undervisning/vurdering i høstparallellen.
Første gang: Studieår 2018-2019
Emnets innhold:

Innen biologien genereres det i økende grad store datasett som ikke kan analyseres manuelt. For å utvinne kunnskap fra data kreves at biologer har kunnskap og ferdigheter innen programmering og grunnleggende dataanalyse som gjør dem i stand til å utforske, visualisere og tolke data. Dette må gjøres på en etterprøvbar måte der det framgår hvordan dataene er prosessert, så man lett kan gjøre alternative analyser om ønskelig.

Dette kurset gir grunnleggende ferdigheter innen programmeringsspråket R og introduserer studentene for vanlige metoder for visualisering og analyse av multidimensjonelle, biologiske data. Kurset er organisert rundt veiledet gruppearbeid der studentene analyserer relevante datasett. De lærer "lesbar programmering", en sømløs blanding av dataprogramkode og fri, forklarende tekst, som kan veves sammen med output av programmet til en selvdokumenterende, etterprøvbar rapport.

I en tid der tilliten til vitenskapelig kunnskap svekkes, samtidig som bærekraftsutfordringene står i kø, er dataforståelse og etterprøvbar kunnskapsproduksjon avgjørende. STIN100 gjør at framtidige arbeidsgivere og beslutningstakere kan ha tillit til kunnskapsgrunnlaget studenten leverer.

Læringsutbytte:

KUNNSKAPER: Studentene skal få

  • bred kunnskap om grunnleggende behandling, visualisering og analyse av multidimensjonelle biologiske data.
  • kjennskap til hvordan noen viktige datasett innen biologien genereres og hvordan man skal behandle data for å korrigere feilkilder.
  • begrepsapparat om grafiske virkemidler for å framstille data.
  • den kjennskap til programmeringstekniske begreper som er nødvendig for å utføre analysene i kurset.

FERDIGHETER: Studentene skal kunne

  • gjengi og forklare prinsippene bak grunnleggende metoder for visualisering og analyse av data.
  • skrive programmer som utfører grunnleggende databehandling (utvalg, omforming og gruppevise sammendrag) og som tar i bruk enkle visualiserings- og dataanalyse-metoder.
  • generere reproduserbare, kjørbare rapporter der forklarende tekst, programkode og output flettes sammen.
  • tolke resultatene av analysene biologisk.
  • søke effektivt i hjelpetekster, dokumentasjon og i internettressurser for å realisere analyser.
  • forenkle datasett for prototyping og feilsøking av analyser.

GENERELL KOMPETANSE: Studentene skal være rustet til å:

  • gripe an datamateriale de møter i senere semesteroppgaver, gradsoppgaver og arbeidsliv.
  • drive etterrettelig analyse der prosesseringen av data er fullt dokumentert gjennom kjørbare rapporter.
  • velge hensiktsmessige virkemidler for visualisering som passer til datatyper og biologisk struktur i dataene.
  • stille oppfølgingsspørsmål til dataanalyser som kan diskuteres med eksperter.
  • lære seg nye metoder og programpakker ut fra dokumentasjon, eksempler og nettressurser.
Læringsaktiviteter:

Dette kurset skal gjøre deg selvgående til å se på, prosessere og beskrive data og tolke hva dataene betyr biologisk. Til dette bruker vi programmeringsspråket R, programmeringsverktøyet R Studio, og lesbar programmering som lager fine, etterprøvbare rapporter av analysene dine.

Hver uke starter med en felles økt som motiverer nytt tema, konkretiserer læringsmål for uka og gir en innføring i nye arbeidsmåter. Det er hyppige innslag av studentaktivitet, f. eks. diskusjon og programmering i par.

I mellomdagene arbeider studentene på egen hånd, alene eller i par. Hjelpelærere er tilgjengelige i sanntid to dobbelttimer i uka (for hvert parti studenter), fysisk eller i Microsoft Teams. Spørsmål kan også stilles i Diskusjoner i Canvas.

Ukentlige sjekkpunktquiz har frist torsdag kl. 17 de første ukene. Quizene er laget for raskt å fastslå om dere klarer det som kreves for neste uke. Hvis noe er vanskelig, snakker vi om det på fredag. Resten av kurset blir det større, parvise innleveringer annenhver uke, og til sist tre uker på en avsluttende fordypningsoppgave.

Ukeslutt fredag på Zoom. Hjelp til ting som eventuelt viste seg vanskelig i sjekkpunktquizzen. Oppsummering av hva dere har lært og hvilke muligheter som åpner seg. Frampeik til neste uke, og fritt fram for spørsmål.

Det er mulig å følge kurset kun digitalt. Slik kan studenter i karantene eller risikogrupper følge kurset, og i tilfelle ny korona-nedstenging flyttes all aktivitet over på nett. Samarbeid skjer da på Teams med videochat og skjermdeling, samt sanntids-synkronisering av mapper i OneDrive, så man kan parprogrammere over nett.

Læringsfilosofien i kurset er: Aktiv læring, ved at du programmerer selv og formulerer hva dataene forteller. Problembasert læring, rundt NMBU-relevante forskningsspørsmål. Samarbeidslæring, gjennom parprogrammering og hverandrevurdering. Studentdrevet læring, i terpe- og mengdetreningsoppgavene, der du selv velger selv hva du vil øve mer på, utfra hva sjekkpunktquizene viser at du trenger.

Læringsstøtte:

Ukeplanene lenker til motivasjonsvideoer, konkretiserer læringsmål for uka, og lenker til arbeidsmåtevideoer, øvingsoppgaver og innleveringer, som forklart i videoen oversikt over typer av lærestoff i STIN100.

Spørsmål rundt dataanalyse og programmering stilles fortrinnsvis i Diskusjoner i Canvas med et reproduserbart eksempel, så vi enkelt kan hjelpe og det kommer flere til gode. Å stille effektive spørsmål er en nøkkelferdighet som dere vil lære i løpet av kurset.

Sjekkpunktquizene får skreddersydde tilbakemeldinger, dels automatisk og dels fra hjelpelærere. Programmerte rapportoppgaver får tilbakemeldinger fra hjelpelærere.

Hjelpelærere er tilgjengelige for spørsmål i felles- og øvingstimene.

Se ellers avsnittet "Pensum" om frie lærebøker på nett som vi henviser til.

Pensum:

Fokus i STIN100 er på å gjøre, og de detaljerte læringsmålene for hver uke sier veldig konkret hva du skal bli i stand til å gjøre før uka er over. Læringsmålene er formulert slik at du og vi lett skal skjønne om du kan eller ikke kan det som du trenger.

Se ellers forelesningsnotater, øvelser og utdelt materiale, samt utvalgte deler av gratisbøkene Hands-on programming with R og R for data science (særlig kapitlene 3 (Data visualisation), 9 (Introduction to data wrangling), 12 (Tidy data), 18 (Pipes), 27 (R markdown)).

Anbefalte forkunnskaper:

Må jeg kunne mye matematikk? Biologi? Data?

Du trenger verken kunne mye matematikk eller biologi for å ta kurset, men du må kjenne filsystemet, tastaturet, nettleseren og datamaskinen din! For noen krever dette mye jobbing den første uka eller så, men vi tilbyr terpequiz med skreddersydd tilbakemelding!

Vurderingsordning:

Vurdering er bestått/ikke bestått basert på godkjent innlevering av en rekke tester og rapportoppgaver gjennom semesteret. Hvis en oppgave ikke blir godkjent, gis konkret veiledning og ett ekstra forsøk.

Godkjente innleveringer gjelder kun innenfor det pågående semesteret.

Sensor:
Ekstern sensor godkjenner opplegg for vurdering.
Merknader:
Studentene må ha egen laptop med Windows 10, Linux eller macOS 10.13 eller høyere for å kjøre programmene vi bruker. (Se evt. oppdaterte systemkrav.)
Normert arbeidsmengde:
Fellesøkter: 54 timer. Øvingstimer: 52 timer. Egenstudium: 144 timer.
Opptakskrav:
MATRS - Generell studiekompetanse + R1 (S1+S2)
Undervisningstid:

Fire uker: 2 timer forelesning ispedd øvelser på datamaskin, 4 timer øvelser på datamaskin med foreleser og hjelpelærere til stede.

Tre dobbelt-uker: 1 time gjesteforelesning om utvalgte datasett, 1 time om relaterte programmerings- og analyseteknikker, 10 timer analyse og rapportskriving på datamaskin med foreleser og hjelpelærere til stede.

Tre uker: 6 timer analyse og rapportskriving på datamaskin med foreleser og hjelpelærere til stede.

Eksamensdetaljer: Langsgående vurdering: Bestått / Ikke bestått