Hvordan finne gode modeller for vanskelige data veldig fort

Joakim Skogholt sin doktorgradsavhandling introduserer en ny algoritme for effektiv modellseleksjon i Tikhonov regulariseringsrammeverket og drøfter noen metoder for preprosessering av spektroskopisk data.

I maskinlæring ønsker man å lage modeller som kan hente ut informasjon fra datasett. Det er vanlig å gjøre en inndeling i klassifikasjonsproblemer og regresjonsproblemer. I klassifikasjonsproblemer er målet å si hvilken gruppe en observasjon tilhører. Et eksempel på et klassifikasjonsproblem er å gjenkjenne hvilket siffer et håndskrevet tall er. I regresjonsproblemer så er målet å estimere numerisk en egenskap ved en observasjon. Et eksempel på et regresjonsproblem kan være å estimere andelen fett i et laksestykke. Både klassifikasjon og regresjonsproblemer har en rekke anvendelser innenfor mange ulike fagområder.

I matindustrien er man for eksempel opptatt av å undersøke næringsinnhold i mat på en billig, effektiv, og korrekt måte. En måte å undersøke næringsinnhold i er ved hjelp av spektroskopi. I spektroskopi så belyser man en prøve og ser på lyset man får tilbake. Prøven vil interagere med lyset, og etterlate en ‘signatur’ som forteller mye om det kjemiske innholdet i prøven. Måleresultatene kan analyseres både kvantitativt og kvalitativt. Rådataene som kommer ut av måleapparatet inneholder ofte ‘støy’ som gjør det vanskelig å tolke dataene direkte. Det er derfor viktig å preprosessere dataene på en slik måte at det man ikke vil ha forsvinner uten å fjerne informasjonen man er interessert i.

Et av temaene i avhandlingen er preprosessering av spektroskopiske data. Avhandlingen drøfter noen variasjoner av en mye brukt preprosesseringsmetode som heter Extended Multiplicative Signal Correction. Det blir vist hvordan deler av preprossesseringen kan gjøres når man lager en regresjonsmodell, og det drøftes også noen tekniske detaljer om implementering av denne preprosesseringsmetoden.

Når dataene er preprossesert er man klar for å lage en regresjonsmodell som kan estimere det vi er interessert i. Som en del av det å lage en regresjonsmodell må man ofte spesifisere verdien til et eller flere parametere. Avhandlingen bruker primært Tikhonov regulariseringsrammeverket til å lage regresjonsmodeller. I avhandlingen introduseres en ny algoritme for effektiv modellseleksjon i dette rammeverket som gjør at parametervalget kan gjøres veldig effektivt. Det blir også vist at denne modellseleksjonen kan brukes for parametervalg i klassifiseringsproblemer der man bruker såkalt regularisert lineær diskriminantanalyse.