[R – DATA SCIENCE] Analyse de données COVID19
Répondre à la discussion
Affichage des résultats 1 à 1 sur 1

[R – DATA SCIENCE] Analyse de données COVID19



  1. #1
    invite4efeeb3d

    [R – DATA SCIENCE] Analyse de données COVID19


    ------

    Bonjour à tous,
    Avec les grèves en début d’année scolaire et la fermeture des établissements du supérieur jusqu’à septembre, je n’ai pas eu beaucoup de cours en data science et en analyse de données, c’est pourquoi j’aurais besoin d’un peu d’assistance.
    Je travaille actuellement sur le package covid19.analytics sous R.

    Voici la documentation concernant ce package :
    https://cran.r-project.org/web/packa....analytics.pdf
    https://cran.r-project.org/web/packa...analytics.html
    https://cran.r-project.org/web/packa...ics/index.html

    Mon travail consiste à établir des similitudes et des différences entre les provinces américaines, à classifier ces dernières en classes partageant des caractéristiques communes.
    Pour cela, je dois faire des statistiques descriptives, de l’analyse de données (ACP, AFC), des tests statistiques et de la classification.
    Je n’ai pas eu beaucoup de cours en analyse de données, ni de R malheureusement donc j’ai beaucoup appris par moi-même.

    Pour l’instant, j’ai sorti quelques stats descriptives :

    Code:
    library(covid19.analytics)
    library(UsingR)
    library(FactoMineR)
    library(dplyr)
    library(ggplot2)
    
    data <- covid19.data("aggregated")
    dataUSA = data[data$Country_Region == "US",]
    
    dataUSA$Province_State=as.factor(dataUSA$Province_State)
    dataUSA2 = dataUSA[, -c(1,2,4,5,6,7,12)]
    summary(dataUSA2$Province_State)
    
    dataUSA.Confirmed = dataUSA2 %>% group_by(Province_State) %>% summarise(Confirmed=sum(Confirmed))
    dataUSA.Confirmed
    
    dataUSA.Deaths = dataUSA2 %>% group_by(Province_State) %>% summarise(Confirmed=sum(Deaths))
    dataUSA.Deaths
    
    #Graphiques
    g1<-ggplot(data=dataUSA.Confirmed, aes(x=Confirmed, y=Province_State)) +
      geom_bar(stat="identity", fill="steelblue") + ggtitle("Nombre de cas confirmés par province")
    g1
    
    g2<-ggplot(data=dataUSA2, aes(x=Deaths, y=Province_State)) +
      geom_bar(stat="identity", fill="red") + ggtitle("Nombre de morts par province")
    g2
    
    #Times series
    US.conf <- covid19.data("ts-confirmed-US")
    US.deaths <- covid19.data("ts-deaths-US")
    US.cases <- rbind(US.conf, US.deaths)
    debriefing(US.cases, debrief)
    return(US.cases)
    
    #Nombre de déces au fil des jours :
    US.deaths <- US.deaths[, -c(1,2,3,4)]
    sumjour<-apply(US.deaths,2,sum) #nombre total de morts par jour 
    plot(sumjour, xlab="Nombre de jours", ylab="Nombre de morts au fil des jours", main="Évolution du nombre de morts aux USA")
    
    J’aurais besoin de quelques conseils car je ne vois pas trop de quelle manière je pourrais faire de l’analyse de données sur les observations (les provinces), car j'ai toujours fais ce genre d'analyse sur les variables.
    Dans ce style là :
    
    test = merge(dataUSA.Confirmed, dataUSA.Deaths, by ="Province_State")
    test = merge(test, dataUSA.Active, by ="Province_State")
    names(test) = c("Province_State", "Confirmed", "Deaths", "Active")
    test
    PCA(test[,c(2,3,4)], scale.unit = TRUE, ncp = 5, graph = TRUE)
    Mais ça ne m’avance pas beaucoup de savoir que les variables soient corrélées ou non.

    Merci d’avance pour votre aide.

    -----
    Dernière modification par Antoane ; 21/06/2020 à 18h54. Motif: Ajout balises code

Discussions similaires

  1. Data science
    Par cedric125 dans le forum Discussions scientifiques
    Réponses: 11
    Dernier message: 20/03/2020, 20h08
  2. Data science : thèse ou pas thèse ?
    Par invite3903786d dans le forum Orientation après le BAC
    Réponses: 4
    Dernier message: 24/07/2019, 00h34
  3. Choix entre trois Masters Data Science / Big Data
    Par invite18e494b0 dans le forum Orientation après le BAC
    Réponses: 3
    Dernier message: 19/07/2016, 13h34