Bonjour à tous,
Je suis actuellement un cours de Machine Learning à TKK à Helsinki.
Nous devons réaliser un projet (très interessant je trouve) sur le webspam.
Néanmoins, pour ce faire, j'ai besoin d'utiliser R mais je n'arrive pas à me depatouiller avec les commandes - enfin, c'est surtout que je n'arrive pas à faire ce que je veux. Si vous pouviez m'aidez avec ce logiciel qui me désesp-R, ca serait sympa.
Explications :
#J'ai trois tables
Simple <- read.table("http://www.cis.hut.fi/Opinnot/T-61.3050/2007/proj/uk-2006-05.obvious_features.csv")
Data <- read.trable("http://www.cis.hut.fi/Opinnot/T-61.3050/2007/proj/webspam-uk2006-set1-labels.txt")
Test <- read.table("http://www.cis.hut.fi/Opinnot/T-61.3050/2007/proj/webspam-uk2006-set2-nolabels.txt")
#il s'agit d'une étude de spamicité de differents website
#je vais utiliser les données de Simple et Data pour predire la spamicité des site de Test
#Le probleme est que Simple et Data ne font pas la meme taille. Je voudrais pouvoir combiner les deux tables de maniere a avoir un seul tableau, mais uniquement pour les ligne ou Data["hostname"]==Simple["hostname"]
#en MySQL, je saurais faire, mais pas avec R.
#ce qui m'interesse, c surtout la colone "hostname", "length_of_hostname", et la deuxieme colone de Data qui correspond a l'indice de spamicité.
#donc, ca, c pour que je puisse faire ma regression/classification
#ensuite, si je veux l'appliquer a Test, il me faut la longueur des hostnames de Test.
#j'ai trouvé la methode nchar(), mais celle-ci me retourne des resultat bizares lorsque je fais nchar(Test)
#donc, si vous pouviez m'indiquer comment l'utiliser afin que j'ai pour chaque colone la longue de l'hostname, ca serait super.
#je pourrais enfin finir ce projet
Si quelque chose n'est pas clair dans les methodes que je recherche, n'hesitez pas a me questionner.
Je vous remercie d'avance pour l'attention que vous porterez a mon message et pour les réponses que vous saurez m'apporter.
Steven
-----