-
Failure Detection for Molescrape: Anomaly Detection on Daily Signals
At my scraping platform molescrape.com, I have setup a constant monitoring of the number of items collected per spider to detect when a spider fails (e.g. because of system problems or because the website changed). Currently, the threshold has to be set manually for each newly added spider. As this is increased effort for the user, I have been working on a system to automatically detect a useful threshold.
-
Compiling xmr-stak from scratch
The most commonly used mining program for mining Monero at the moment is xmr-stak. Some time ago it was split into separate projects for
xmr-stak-cpu
andxmr-stak-gpu
, but now they are both combined intoxmr-stak
. -
Messaging Systems: An Overview over RabbitMQ, Kafka, ZeroMQ and Mosquitto - Part 1
When dealing with messaging systems there are a lot of options available from classical message brokers to simple libraries that handle the messaging logic without a central server. Almost all of them have some differences and each of them has a reason to exist. In this article I will compare a few popular ones and very different ones, namely the message broker RabbitMQ, the distributed streaming platform Kafka, the socket and concurrency library ZeroMQ and the lightweight MQTT broker Mosquitto. You will see that each of them has their own advantages and differences from the others and you should choose one according to your needs.
-
Verantwortungsvolles und höfliches Crawling: Theorie und Praxis mit Scrapy
Ein Crawler ist im Grunde sehr simpel und schnell programmiert. Wir senden eine Anfrage für eine bestimmte URL an einen Server und warten auf die Antwort. Die Antwort speicher wir ab und fertig ist der erste Request. Jetzt extrahieren wir nur noch die Links aus der Seite, senden neue Requests und fertig ist der Crawler.
-
Berichterstattung zur Bundestagswahl 2017
Zur Bundestagswahl 2017 wollen wir eine kleine Datenauswertung basierend auf meinem Scraping- und Processing-Framework molescrape machen. Hierzu habe ich mehrere deutsche Nachrichtenportale beobachtet und ihre Artikel ausgewertet. Leider kam mir die Idee sehr kurzfristig, sodass wir bei den meisten Seiten lediglich auf eine Woche Berichterstattung blicken können.