Bonjour à tous,
Avec les grèves en début d’année scolaire et la fermeture des établissements du supérieur jusqu’à septembre, je n’ai pas eu beaucoup de cours en data science et en analyse de données, c’est pourquoi j’aurais besoin d’un peu d’assistance.
Je travaille actuellement sur le package covid19.analytics sous R.
Voici la documentation concernant ce package :
https://cran.r-project.org/web/packa....analytics.pdf
https://cran.r-project.org/web/packa...analytics.html
https://cran.r-project.org/web/packa...ics/index.html
Mon travail consiste à établir des similitudes et des différences entre les provinces américaines, à classifier ces dernières en classes partageant des caractéristiques communes.
Pour cela, je dois faire des statistiques descriptives, de l’analyse de données (ACP, AFC), des tests statistiques et de la classification.
Je n’ai pas eu beaucoup de cours en analyse de données, ni de R malheureusement donc j’ai beaucoup appris par moi-même.
Pour l’instant, j’ai sorti quelques stats descriptives :
Mais ça ne m’avance pas beaucoup de savoir que les variables soient corrélées ou non.Code:library(covid19.analytics) library(UsingR) library(FactoMineR) library(dplyr) library(ggplot2) data <- covid19.data("aggregated") dataUSA = data[data$Country_Region == "US",] dataUSA$Province_State=as.factor(dataUSA$Province_State) dataUSA2 = dataUSA[, -c(1,2,4,5,6,7,12)] summary(dataUSA2$Province_State) dataUSA.Confirmed = dataUSA2 %>% group_by(Province_State) %>% summarise(Confirmed=sum(Confirmed)) dataUSA.Confirmed dataUSA.Deaths = dataUSA2 %>% group_by(Province_State) %>% summarise(Confirmed=sum(Deaths)) dataUSA.Deaths #Graphiques g1<-ggplot(data=dataUSA.Confirmed, aes(x=Confirmed, y=Province_State)) + geom_bar(stat="identity", fill="steelblue") + ggtitle("Nombre de cas confirmés par province") g1 g2<-ggplot(data=dataUSA2, aes(x=Deaths, y=Province_State)) + geom_bar(stat="identity", fill="red") + ggtitle("Nombre de morts par province") g2 #Times series US.conf <- covid19.data("ts-confirmed-US") US.deaths <- covid19.data("ts-deaths-US") US.cases <- rbind(US.conf, US.deaths) debriefing(US.cases, debrief) return(US.cases) #Nombre de déces au fil des jours : US.deaths <- US.deaths[, -c(1,2,3,4)] sumjour<-apply(US.deaths,2,sum) #nombre total de morts par jour plot(sumjour, xlab="Nombre de jours", ylab="Nombre de morts au fil des jours", main="Évolution du nombre de morts aux USA") J’aurais besoin de quelques conseils car je ne vois pas trop de quelle manière je pourrais faire de l’analyse de données sur les observations (les provinces), car j'ai toujours fais ce genre d'analyse sur les variables. Dans ce style là : test = merge(dataUSA.Confirmed, dataUSA.Deaths, by ="Province_State") test = merge(test, dataUSA.Active, by ="Province_State") names(test) = c("Province_State", "Confirmed", "Deaths", "Active") test PCA(test[,c(2,3,4)], scale.unit = TRUE, ncp = 5, graph = TRUE)
Merci d’avance pour votre aide.
-----