BUS255 Introduksjon til dataanalyse i R

Studiepoeng:5

Ansvarlig fakultet:Handelshøyskolen

Emneansvarlig:Ritvana Rrukaj

Campus / nettbasert:Nettbasert

Undervisningens språk:Engelsk

Frekvens:Årlig

Forventet arbeidsmengde:125 timer

Undervisnings- og vurderingsperiode:Emnet starter i vårparallellen. Emnet har undervisning/vurdering i vårparallellen, .

Om dette emnet

I dette emnet vil du lære å bruke R til å løse vanlige problemer i dataanalyse. Du vil få grunnleggende kunnskap om datastrukturer, analyse og visualisering.

Noen av nøkkelfordelene ved å jobbe i R er at alt arbeid og analyse er fullt ut reproduserbar, du kan jobbe med store datasett, kontinuerlige datastrømmer, utnytte «state-of-the-art» modellering og data visualiseringsteknikker, og mye mer.

Emnet er delt inn i 4 deler:

  1. Datautforskning (4 uker)
  2. Datahåndtering (4 uker)
  3. Programmering i R (3 uker)
  4. Modeller i R (2 uker)

Emnet vil dekke følgende temaer:

  • Vanlige datastrukturer og datakilder
  • Vanlige filformater og dataimportering
  • R og R Studio
  • Quarto
  • Data transformasjon
  • Data- og modellvisualisering ved bruk av `ggplot`
  • Eksplorativ dataanalyse
  • Programmeringskonsepter (funksjoner, vektorer og iterasjoner)
  • Modellbygging
  • Et nøkkellæringsutbytte er effektiv skriftlig kommunikasjon. Du må kunne kommunisere tydelig rundt valgene du gjorde før og under dataanalyse; og du trenger å kunne kommunisere resultatene ved bruk av tekst, tabeller og visualiseringer. Du vil lære og lage reproduserbare rapporter og presentasjoner ved bruk av Quarto. Hvis satt opp riktig så vil du se at alt du trenger å gjøre når du mottar nye data er å kjøre kodene dine om igjen for å lage en ny rapport med oppdaterte tall og figurer.

Dette lærer du

Kunnskap:

  • Forstå egenskapene til rådatastrukturer og deres implikasjoner for bruk av analyseteknikker
  • Kjenne til de vanligste databasestrukturene og forstå deres implikasjoner for datahåndtering og datauttrekk
  • Kjenne til standardteknikker for datatilrettelegging, datatransformasjoner og datautforskning
  • Forstå hvordan valg som foretas før analyse, e.g., aggregering og fjerning av observasjoner, påvirker både analyse og tolkning av resultater.
  • Forstå hvilke kompromisser som kan være nødvendig i dataanalyseprosessen når man går fra rådata til diskusjon og presentasjon av resultater og hvordan disse kompromissene kan påvirke og føre til skjevhet i resultatene.
  • Forstå hvordan programmering kan automatiskere dataanalyseoppgaver, redusere risikoen for feil og øke graden av reproduserbare resultater

Ferdigheter:

  • Ha grunnleggende ferdigheter i R og R Studio
  • Kunne lese inn data fra ulike datakilder og filformater, e.g., SQL databaser, Excel, XML datastrømmer
  • Kunne jobbe med utfordrende rådata og klargjøre disse for analyse
  • Kunne utføre grunnleggende former for «feature engineering» som variabelutvelgelse, transformasjoner av data og dataaggregering.
  • Kunne lage informative tabeller og visualiseringer av data og analyseresultater
  • Kunne lage reproduserbare presentasjoner og rapporter i Quarto

Generell kompetanse:

  • Kunne effektivt kommunisere resultatene av dataanalyse ved bruk av tekst, tabeller og visualiseringer
  • Kunne bygge logiske argumenter og rettferdiggjøre data og analysevalg
  • Kunne stille tekniske spørsmål på en slik måte at andre kan komme inn å hjelpe til med løsningen
  • «Omvendt klasserom» med forhåndsinnspilte videoer og ressurser tilgjengelig på Canvas. Ukentlige campus-baserte og/eller online seminarer.
  • Det utarbeides en FAQ som er tilgjengelig på Canvas. Online forum som «Stack Overflow» kan brukes til å lære av eksisterende spørsmål og svar, og til å stille spørsmål på en måte slik at andre kan hjelpe.

    Ukentlige automatisk rettede problemsett for å hjelpe studentene med å repetere materialet er tilgjengelig på Canvas.

  • R for Data Science av Hadley Wickham & Garrett Grolemund (Åpen tilgang)

    Ekstra lesemateriale vil bli gjort tilgjengelig på Canvas

  • STAT100 eller tilsvarende. Gitt emnets oppbygning så kan BUS255 tas samtidig med STAT100.
  • Mappevurdering som består av 2 innleveringer.

    Mappe/sammensatt vurdering Karakterregel: Bestått/ Ikke bestått
  • Ekstern sensor kvalitetssikrer pensum, eksamensoppgaver og prinsipper for evaluering og besvarelser.
    • Forelesninger som forhåndsinnspilte videoer, ca 18 timer
    • Øvinger - enten på campus eller digitalt, 2 timer per uke i semesteret, ca 26 timer. Det er mulig å delta på flere øvinger per uke hvis ønskelig.
  • Emnet overlapper 5 stp med BUS350 og 5 stp med STIN300
  • GSK