Data Analysis

Hier eine Sammlung einiger Webscraping und Visualisierungs Projekte

Spotify Hörstatistiken

Nach einer Anfrage bei dem Spotify-Support erhält man dank der DSGVO alle vom Anbieter gespeicherten Daten. Hier kann man zwar auch ohne Support-Kontakt die Daten abfragen, jedoch nur bis zu ein Jahr zurück. Der Mail-support hingegen liefert alle daten, seit Accounterstellung. In diesem Fall von 2018 bis zum Zeitpunkt der Anfrage: Mai 2022. Diese kann man sich dann wiederum für eine schöne Visualisierung zunutze machen.
Mithilfe von Tableau 2022 habe ich die interessantesten Daten herausgefiltert und visualisiert. Das zu sehende Dashboard ist das Ergebnis. 

 

Hier nocheinmal etwas ausführlicher für 2024:

Fitnessstudio Auslastung

Da während der Corona-Zeit auch die Fitnessstudios zweitweise eingeschränkt wurden, hat man nach einer Lösung gesucht, die staatlichen Vorgaben und Kundenwüsche unter einen Hut zu kriegen. Das Ergebnis war ein „Tacho“ auf der Website des Fitnessstudios, welcher die Auslastung in Prozent anzeigte.

Wie sich rausstellte, verbarg sich hinter diesem Feature eine simple HTML-Abfrage auf den Server, welcher auch das Anmelde-System beinhaltet.

Also schnell ein Python-Script geschrieben, um die Auslastung alle 10 Minuten auszulesen und zu speichern. Damit dies nicht all zu sehr auffällt wurde der Abfragezeitpunkt zufällig um bis zu 1 Minute verzögert. Auch wurden zufällig über 1000 verschiedene Useragents, sowie Proxy-IPs verwendet. Für einen reibungslos(er)en Betrieb wurde ein kleiner VPS angemietet um Downtime vorzubeugen.

Nach ein wenig Aufbereitung der Daten in Tableau 2020 entstand diese schöne Heatmap, welche mir gut zeigt, wann das Studio aufgrund von Überfüllung zu meiden ist.

Auch gut ersichtlich sind die Einbrüche der durschnittlichen Auslastung zur Sommerferien Zeit, sowie im Herbst bei Einführung eines Tagesaktuellen Schnelltests vor Ort oder von einem Testzentrum.

Webscraper für Abschlussarbeiten

Im Rahmen meiner Suche nach geeigneten Abschlussarbeiten wurde es mir auf Dauer zu umständlich, alle paar Tage das Karriereportal von BMW und co. zu öffnen und nach meinen Kriterien zu filtern.

So suchte ich ein wenig im Netzwerktraffic meines Browsers herum und fand die Anfrage-URL, welche eine HTML-Datei wie diese zurück liefert. Alle Filterkriterien können einfach in der URL angegeben werden.

Ähnlich wie bei dem Fitnessstudio-Scraper habe ich ein Skript geschrieben, welches alle für mich interessanten Stellenausschreibungen abfrägt. Auf meinem Server wurde dann mit Pandas und der Telegram Bot-API ein Chat-Bot geschreiben, der einmal in der Stunde nach neuen oder entfernten Stellenangeboten sucht.

Durch abspeichern der Stellen in einer Datenbank kann zudem ermittelt werden, wie lange das Ausschreiben online war. Zusätzlich werden einmal die Woche alle aktuell verfügbaren Jobs ausgegeben.  

WordPress Cookie Plugin von Real Cookie Banner