Über mich
Ursprünglich: Geographie / Informatik / Tages-Anzeiger
Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist

Warum Transparenz?
Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden
Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen
– Gefahr der "Pseudo-Objektivität" steigt
Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren
Stufen der Transparenz
1. Quellenangaben (leider nicht selbstverständlich...)
2. Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht
3. Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)
4. Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)
Warum Reproduzierbarkeit?
1. Transparenz
2. Wiederverwendbarkeit
3. Automatisierung
3b. Reduzierte Fehleranfälligkeit
Genug der Theorie!!!

Bildquelle: Flickr.com
Wie wir versuchen, transparent zu sein
(und effizient zu arbeiten...)
R / RMarkdown
GitHub
Beispiel 1: Rüstungsexporte

Publizierter Artikel: Hier
Methodik und Rohdaten: Hier
--> DEMO
Beispiel 1: Rüstungsexporte
Auswertung der Daten in R:
- Reinladen
- Vorprozessieren (messy -> tidy)
- Erste Auswertungen inkl. Plots
Publikation als Markdown-HTML
Publikation auf GitHub Pages:
- Automatisiert über Shell-Skript
Beispiel 2: Wahlen 2015

Publizierte Artikel: Hier oder hier
Methodik / interaktive Auswertung: z.B. hier
--> DEMO
Beispiel 2: Wahlen 2015
- Vor allem Vorprozessierung für Visualisierung
- Daten und Methoden wurden noch nicht veröffentlicht, ist aber geplant
- Interaktive Visualisierungen mit Shiny - u.a. für Kollegen (z.B. beim Radio)
- Vorprozessierung von "Hand" kaum vorstellbar
- Und immer wieder:
git status
Fazit
GitHub ermöglicht uns:
- Austausch von Code und Daten (intern und extern)
- Schnelle Publikation über GitHub Pages
- Versionsvergleiche
Wir sind erst am Anfang und probieren viel aus.
Klar ist: Transparenz ist notwendig - und machbar!