STIN100 Biologisk data-analyse

Studiepoeng:10

Ansvarlig fakultet:Fakultet for kjemi, bioteknologi og matvitenskap

Emneansvarlig:Torgeir Rhodén Hvidsten, Jon Olav Vik

Campus / nettbasert:Undervises campus Ås

Undervisningens språk:Norsk

Antall plasser:800

Frekvens:Årlig

Forventet arbeidsmengde:Fellesøkter: 54 timer. Øvingstimer: 52 timer. Egenstudium: 144 timer.

Undervisnings- og vurderingsperiode:Emnet starter i høstparallellen. Emnet har undervisning/vurdering i høstparallellen.

Om dette emnet

Innen biologien genereres det i økende grad store datasett som ikke kan analyseres manuelt. For å utvinne kunnskap fra data kreves at biologer har kunnskap og ferdigheter innen programmering og grunnleggende dataanalyse som gjør dem i stand til å utforske, visualisere og tolke data. Dette må gjøres på en etterprøvbar måte der det framgår hvordan dataene er prosessert, så man lett kan gjøre alternative analyser om ønskelig.

Dette kurset gir grunnleggende ferdigheter innen programmeringsspråket R og introduserer studentene for vanlige metoder for visualisering og analyse av multidimensjonelle, biologiske data. Kurset er organisert rundt veiledet gruppearbeid der studentene analyserer relevante datasett. De lærer "lesbar programmering", en sømløs blanding av dataprogramkode og fri, forklarende tekst, som kan veves sammen med output av programmet til en selvdokumenterende, etterprøvbar rapport.

I en tid der tilliten til vitenskapelig kunnskap svekkes, samtidig som bærekraftsutfordringene står i kø, er dataforståelse og etterprøvbar kunnskapsproduksjon avgjørende. STIN100 gjør at framtidige arbeidsgivere og beslutningstakere kan ha tillit til kunnskapsgrunnlaget studenten leverer.

Dette lærer du

KUNNSKAPER: Studentene skal få

  • bred kunnskap om grunnleggende behandling, visualisering og analyse av multidimensjonelle biologiske data.
  • kjennskap til hvordan noen viktige datasett innen biologien genereres og hvordan man skal behandle data for å korrigere feilkilder.
  • begrepsapparat om grafiske virkemidler for å framstille data.
  • den kjennskap til programmeringstekniske begreper som er nødvendig for å utføre analysene i kurset.

FERDIGHETER: Studentene skal kunne

  • gjengi og forklare prinsippene bak grunnleggende metoder for visualisering og analyse av data.
  • skrive programmer som utfører grunnleggende databehandling (utvalg, omforming og gruppevise sammendrag) og som tar i bruk enkle visualiserings- og dataanalyse-metoder.
  • generere reproduserbare, kjørbare rapporter der forklarende tekst, programkode og output flettes sammen.
  • tolke resultatene av analysene biologisk.
  • søke effektivt i hjelpetekster, dokumentasjon og i internettressurser for å realisere analyser.
  • forenkle datasett for prototyping og feilsøking av analyser.

GENERELL KOMPETANSE: Studentene skal være rustet til å:

  • gripe an datamateriale de møter i senere semesteroppgaver, gradsoppgaver og arbeidsliv.
  • drive etterrettelig analyse der prosesseringen av data er fullt dokumentert gjennom kjørbare rapporter.
  • velge hensiktsmessige virkemidler for visualisering som passer til datatyper og biologisk struktur i dataene.
  • stille oppfølgingsspørsmål til dataanalyser som kan diskuteres med eksperter.
  • lære seg nye metoder og programpakker ut fra dokumentasjon, eksempler og nettressurser.
  • Dette kurset skal gjøre deg selvgående til å se på, prosessere og beskrive data og tolke hva dataene betyr biologisk. Til dette bruker vi programmeringsspråket R, programmeringsverktøyet R Studio, og lesbar programmering som lager fine, etterprøvbare rapporter av analysene dine.

    Hver uke starter med en felles økt som motiverer nytt tema, konkretiserer læringsmål for uka og gir en innføring i nye arbeidsmåter. Det er hyppige innslag av studentaktivitet, f. eks. diskusjon og programmering i par.

    I mellomdagene arbeider studentene på egen hånd, alene eller i par. Hjelpelærere er tilgjengelige i sanntid to dobbelttimer i uka (for hvert parti studenter), fysisk eller i Microsoft Teams. Spørsmål kan også stilles i Diskusjoner i Canvas.

    Ukentlige sjekkpunktquiz har frist torsdag kl. 17 de første ukene. Quizene er laget for raskt å fastslå om dere klarer det som kreves for neste uke. Hvis noe er vanskelig, snakker vi om det på fredag. Resten av kurset blir det større, parvise innleveringer annenhver uke, og til sist tre uker på en avsluttende fordypningsoppgave.

    Ukeslutt fredag på Zoom. Hjelp til ting som eventuelt viste seg vanskelig i sjekkpunktquizzen. Oppsummering av hva dere har lært og hvilke muligheter som åpner seg. Frampeik til neste uke, og fritt fram for spørsmål.

    Det er mulig å følge kurset kun digitalt. Samarbeid skjer da på Teams med videochat og skjermdeling, samt sanntids-synkronisering av mapper i OneDrive, så man kan parprogrammere over nett. Vi anbefaler likevel å følge fysisk undervisning såframt man kan, da kurset handler om praktiske ferdigheter som det er lettere å veilede i når vi også ser hvordan du bruker hendene og øynene dine.

    Læringsfilosofien i kurset er: Aktiv læring, ved at du programmerer selv og formulerer hva dataene forteller. Problembasert læring, rundt NMBU-relevante forskningsspørsmål. Samarbeidslæring, gjennom parprogrammering og hverandrevurdering. Studentdrevet læring, i terpe- og mengdetreningsoppgavene, der du selv velger selv hva du vil øve mer på, utfra hva sjekkpunktquizene viser at du trenger.

  • Ukeplanene lenker til motivasjonsvideoer, konkretiserer læringsmål for uka, og lenker til arbeidsmåtevideoer, øvingsoppgaver og innleveringer, som forklart i videoen oversikt over typer av lærestoff i STIN100.

    Spørsmål rundt dataanalyse og programmering stilles fortrinnsvis i Diskusjoner i Canvas med et reproduserbart eksempel, så vi enkelt kan hjelpe og det kommer flere til gode. Å stille effektive spørsmål er en nøkkelferdighet som dere vil lære i løpet av kurset.

    Sjekkpunktquizene får skreddersydde tilbakemeldinger, dels automatisk og dels fra hjelpelærere. Programmerte rapportoppgaver får tilbakemeldinger fra hjelpelærere.

    Hjelpelærere er tilgjengelige for spørsmål i felles- og øvingstimene.

    Se ellers avsnittet "Pensum" om frie lærebøker på nett som vi henviser til.

  • Fokus i STIN100 er på å gjøre, og de detaljerte læringsmålene for hver uke sier veldig konkret hva du skal bli i stand til å gjøre før uka er over. Læringsmålene er formulert slik at du og vi lett skal skjønne om du kan eller ikke kan det som du trenger.

    Se ellers forelesningsnotater, øvelser og utdelt materiale, samt utvalgte deler av gratisbøkene Hands-on programming with R og R for data science (særlig kapitlene 3 (Data visualisation), 9 (Introduction to data wrangling), 12 (Tidy data), 18 (Pipes), 27 (R markdown)).

  • Vurdering er bestått/ikke bestått basert på godkjent innlevering av en rekke tester og rapportoppgaver gjennom semesteret. Hvis en oppgave ikke blir godkjent, gis konkret veiledning og ett ekstra forsøk.

    Godkjente innleveringer gjelder kun innenfor det pågående semesteret.

  • Ekstern sensor godkjenner opplegg for vurdering.
  • Vurdering er bestått/ikke bestått basert på godkjent innlevering av en rekke tester og rapportoppgaver gjennom semesteret. Hvis en oppgave ikke blir godkjent, gis konkret veiledning og ett ekstra forsøk.

    Godkjente innleveringer gjelder kun innenfor det pågående semesteret.

  • Studentene må ha egen laptop med Windows 10, Linux eller macOS 11 eller høyere for å kjøre programmene vi bruker. (Se evt. oppdaterte systemkrav.) Chromebook dekker ikke systemkravene for programmene vi bruker.
  • Fire uker: 2 timer forelesning ispedd øvelser på datamaskin, 4 timer øvelser på datamaskin med foreleser og hjelpelærere til stede.

    Tre dobbelt-uker: 1 time gjesteforelesning om utvalgte datasett, 1 time om relaterte programmerings- og analyseteknikker, 10 timer analyse og rapportskriving på datamaskin med foreleser og hjelpelærere til stede.

    Tre uker: 6 timer analyse og rapportskriving på datamaskin med foreleser og hjelpelærere til stede.

  • Bestått/ Ikke bestått
  • MATRS - Generell studiekompetanse + R1 (S1+S2)