-
Gaussian-Mixture-Model in R
In meinem letzten Eintrag zum Kaggle-Wettbewerb zur Fahrradnutzung habe ich zwei Verteilungen der Uhrzeiten geplottet, zu welchen Fahrräder gemietet wurden. In einer davon waren zwei Spitzen zu erkennen und grob sieht es auch nach zwei Gaussglocken aus.
-
My first-impressions approach to the Kaggle "Bike Sharing Demand" contest
In this article I will share my approach to the Kaggle contest named “Bike Sharing Demand”. It is in my opinion a quite easy dataset, so it’s easy for me to learn with. It’s also a very good dataset for visualisations.
-
Liste von Transformationen
Bei der Datenanalyse macht es oft Sinn, die Daten in einen anderen Raum (x-Achse) zu transformieren und erst dann zu analysieren. Dadurch kann oft eine Reduzierung der Dimensionalität des Problems und eine bessere Separierbarkeit erreicht werden. Die richtige Funktion muss jeweils anhand der Daten und dem Ziel gewählt werden.
-
Liste von Distanzmetriken
Verschiedene häufig verwendete Distanzmetriken:
-
Bloom- und Counting-Filter - probabilistische Datenstrukturen
Eine nützliche Datenstruktur, wenn man schnell ein Ergebnis braucht, ob etwas definitiv nicht vorhanden ist, sind Bloom-Filter. Sie sind eine probabilistische Datenstruktur, die falsch Positive aufweisen kann. Das bedeutet, dass die Antwort “X befindet sich in der Datenstruktur” nicht unbedingt richtig sein muss. Falsch Negative treten hingegen nicht auf, d.h. die Antwort “X befindet sich nicht in der Datenstruktur” ist immer richtig.