BUS350 Dataanalyse i R
Studiepoeng:5
Ansvarlig fakultet:Handelshøyskolen
Emneansvarlig:Dag Einar Sommervoll
Campus / nettbasert:Undervises campus Ås
Undervisningens språk:Engelsk
Frekvens:Årlig.
Forventet arbeidsmengde:125 timer. Dette er et arbeidsintensivt emne.
Undervisnings- og vurderingsperiode:Emnet starter i høstparallellen. Emnet har undervisning/vurdering i høstparallellen.
Om dette emnet
I dette kurset vil du lære å bruke R til å løse vanlige problemer i dataanalyse. Du vil få grunnleggende kunnskap om datastrukturer, analyse og visualisering.
Noen av nøkkelfordelene ved å jobbe i R er at alt arbeid og analyse er fullt ut reproduserbar, du kan jobbe med store datasett, kontinuerlige datastrømmer, utnytte «state-of-the-art» modellering og data visualiseringsteknikker, og mye mer.
Kurset er delt inn i 4 deler:
- Datautforskning (4 uker)
- Datahåndtering (4 uker)
- Programmering i R (3 uker)
- Modeller i R (2 uker)
Og vil dekke følgende temaer:
- Vanlige datastrukturer og datakilder
- Vanlige filformater og dataimportering
- R og R Studio
- Quarto
- Data transformasjon
- Data- og modellvisualisering ved bruk av `ggplot`
- Eksplorativ dataanalyse
- Programmeringskonsepter (funksjoner, vektorer og iterasjoner)
- Modellbygging
Et nøkkellæringsutbytte er effektiv skriftlig kommunikasjon. Du må kunne kommunisere tydelig rundt valgene du gjorde før og under dataanalyse; og du trenger å kunne kommunisere resultatene ved bruk av tekst, tabeller og visualiseringer. Du vil lære og lage reproduserbare rapporter og presentasjoner ved bruk av Quarto. Hvis satt opp riktig så vil du se at alt du trenger å gjøre når du mottar nye data er å kjøre kodene dine om igjen for å lage en ny rapport med oppdaterte tall og figurer.
Det er forventet at studenter som tar kurset jobber kontinuerlig igjennom semesteret og deltar aktivt på både seminarer og på Canvas.
Dette lærer du
Kunnskap:
- Forstå egenskapene til rådatastrukturer og deres implikasjoner for bruk av analyseteknikker
- Kjenne til de vanligste databasestrukturene og forstå deres implikasjoner for datahåndtering og datauttrekk
- Kjenne til standardteknikker for datatilrettelegging, datatransformasjoner og datautforskning
- Forstå hvordan valg som foretas før analyse, e.g., aggregering og fjerning av observasjoner, påvirker både analyse og tolkning av resultater.
- Forstå hvilke kompromisser som kan være nødvendig i dataanalyseprosessen når man går fra rådata til diskusjon og presentasjon av resultater og hvordan disse kompromissene kan påvirke og føre til skjevhet i resultatene.
- Forstå hvordan programmering kan automatiskere dataanalyseoppgaver, redusere risikoen for feil og øke graden av reproduserbare resultater
Ferdigheter:
- Ha grunnleggende ferdigheter i R og R Studio
- Kunne lese inn data fra ulike datakilder og filformater, e.g., SQL databaser, Excel, XML datastrømmer
- Kunne jobbe med utfordrende rådata og klargjøre disse for analyse
- Kunne utføre grunnleggende former for «feature engineering» som variabelutvelgelse, transformasjoner av data og dataaggregering.
- Kunne lage informative tabeller og visualiseringer av data og analyseresultater
- Kunne lage reproduserbare presentasjoner og rapporter i Quarto
Generell kompetanse:
- Kunne effektivt kommunisere resultatene av dataanalyse ved bruk av tekst, tabeller og visualiseringer
- Kunne bygge logiske argumenter og rettferdiggjøre data og analysevalg
- Kunne stille tekniske spørsmål på en slik måte at andre kan komme inn å hjelpe til med løsningen
Læringsaktiviteter
Læringsstøtte
Pensum
Forutsatte forkunnskaper
Anbefalte forkunnskaper
Vurderingsordning, hjelpemiddel og eksamen
Sensorordning
Obligatorisk aktivitet
Merknader
Overlapp
Opptakskrav