-
Scrapy: Fix wrong sitemap URLs with custom downloader middleware
On stackoverflow, the topic was discussed, how to solve the problem of some sitemaps having absolute URLs without a scheme. According to RFC this is fine, but as the maintainers of scrapy pointed out, sitemaps require the contents of
<loc>
to include a scheme (called protocol in the sitemap specs). -
Einen einfachen Sprachklassifikator bauen
Im Web fehlen häufig Angaben darüber, in welcher Sprache eine Seite geschrieben ist. Trotzdem würden wir gerne den Benutzern unseres Dienstes nur diejenigen Inhalte anzeigen, die sie auch verstehen. Auch in anderen Bereichen erhalten wir oft Texte, deren Sprachen wir nicht kennen.
-
Going on with Kaggle's bike competition
Going on with the Kaggle competition about bike rentals, I tried out a decision tree classifier for finding out the importances of features. I gotta admit, I am not sure yet, what are the exact drawbacks of this method (i.e. what can be missed by this approach), but at least it shows you what you should also look at.
-
Gaussian-Mixture-Model in R
In meinem letzten Eintrag zum Kaggle-Wettbewerb zur Fahrradnutzung habe ich zwei Verteilungen der Uhrzeiten geplottet, zu welchen Fahrräder gemietet wurden. In einer davon waren zwei Spitzen zu erkennen und grob sieht es auch nach zwei Gaussglocken aus.
-
My first-impressions approach to the Kaggle "Bike Sharing Demand" contest
In this article I will share my approach to the Kaggle contest named “Bike Sharing Demand”. It is in my opinion a quite easy dataset, so it’s easy for me to learn with. It’s also a very good dataset for visualisations.