## Text Mining mittels Paket tm ## Installation des Pakets install.packages("tm", dependencies = TRUE) ## Paket laden library(tm) ## Corpus aus Twitter-Abfragen erzeugen (siehe Beispiele 1 und 2) mydata.corpus <- Corpus(VectorSource(req.tweets)) mydata.corpus # Transformation 1 - Kleinbuchstaben mydata.corpus <- tm_map(mydata.corpus, tolower) # Satzzeichen entfernen mydata.corpus <- tm_map(mydata.corpus, removePunctuation) # Entfernen der stopwords - generische und manuell vorgegebene my_stopwords <- c(stopwords('english'), 'rstats', '#rstats') mydata.corpus <- tm_map(mydata.corpus, removeWords, my_stopwords) # Term-Document Matrix bauen mydata.dtm <- TermDocumentMatrix(mydata.corpus) # Inspizierung der Matrix mydata.dtm # Matrizen erzeugen mydata.df <- as.data.frame(inspect(mydata.dtm)) # Inspizierung der häufigsten Wörter findFreqTerms(mydata.dtm, lowfreq=3) # Assoziationsanalyse findAssocs(mydata.dtm, 'quantmod', 0.20) # Selten vorkommende Begriffe entfernen, um die Darstellung der Matrix zu verbessern # Hinweis: Den sparse Parameter ein wenig modifizieren, um eine gute Anzahl an Wörtern zu finden # 10 - 30 Wörter stellt eine gute Zahl dar, um noch den Überblick zu behalten mydata.dtm2 <- removeSparseTerms(mydata.dtm, sparse=0.95) # Matrizen erzeugen mydata2.df <- as.data.frame(inspect(mydata.dtm2))