-
Messaging Systems: An Overview over RabbitMQ, Kafka, ZeroMQ and Mosquitto - Part 1
When dealing with messaging systems there are a lot of options available from classical message brokers to simple libraries that handle the messaging logic without a central server. Almost all of them have some differences and each of them has a reason to exist. In this article I will compare a few popular ones and very different ones, namely the message broker RabbitMQ, the distributed streaming platform Kafka, the socket and concurrency library ZeroMQ and the lightweight MQTT broker Mosquitto. You will see that each of them has their own advantages and differences from the others and you should choose one according to your needs.
-
Verantwortungsvolles und höfliches Crawling: Theorie und Praxis mit Scrapy
Ein Crawler ist im Grunde sehr simpel und schnell programmiert. Wir senden eine Anfrage für eine bestimmte URL an einen Server und warten auf die Antwort. Die Antwort speicher wir ab und fertig ist der erste Request. Jetzt extrahieren wir nur noch die Links aus der Seite, senden neue Requests und fertig ist der Crawler.
-
Berichterstattung zur Bundestagswahl 2017
Zur Bundestagswahl 2017 wollen wir eine kleine Datenauswertung basierend auf meinem Scraping- und Processing-Framework molescrape machen. Hierzu habe ich mehrere deutsche Nachrichtenportale beobachtet und ihre Artikel ausgewertet. Leider kam mir die Idee sehr kurzfristig, sodass wir bei den meisten Seiten lediglich auf eine Woche Berichterstattung blicken können.
-
Securing a fresh V-Server
Whenever you buy a new V-Server the first thing you want to do is to make it secure, to avoid being hacked immediately. Good hosters will already provide you with quite good standard configuration, but still there might be some room for improvement.
-
A long-term data collection and analysis system
For each data science project, you somehow have to retrieve your data. In some cases you get preprocessed data (consider Kaggle competitions), in other cases you will search for existing data sources in formats like CSV, JSON or Excel (consider data.gov and similar ones) and sometimes you have to collect the data yourself.