nr-Jahreskonferenz 2015

Transparenz
und Reproduzierbarkeit im #DDJ

Effizientes Arbeiten
mit R und GitHub

Timo Grossenbacher, SRF Data

@grssnbchr

@srfdata

Präsentation vefügbar unter grssnbchr.github.io/nr15-rddj

Über mich

Ursprünglich: Geographie / Informatik / Tages-Anzeiger

Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist

SRF Data

Warum Transparenz?

Deswegen:

Warum Transparenz?

Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden

Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen
– Gefahr der "Pseudo-Objektivität" steigt

Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren

Stufen der Transparenz

1. Quellenangaben (leider nicht selbstverständlich...)

2. Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht

3. Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)

4. Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)

Warum Reproduzierbarkeit?

1. Transparenz

2. Wiederverwendbarkeit

3. Automatisierung

3b. Reduzierte Fehleranfälligkeit

Genug der Theorie!!!

Gute Nacht

Bildquelle: Flickr.com

Wie wir versuchen, transparent zu sein

(und effizient zu arbeiten...)

R / RMarkdown

GitHub

Beispiel 1: Rüstungsexporte

Rüstungsexporte

Publizierter Artikel: Hier

Methodik und Rohdaten: Hier

--> DEMO

Beispiel 1: Rüstungsexporte

  • Auswertung der Daten in R:

    • Reinladen
    • Vorprozessieren (messy -> tidy)
    • Erste Auswertungen inkl. Plots
  • Publikation als Markdown-HTML

  • Publikation auf GitHub Pages:

    • Automatisiert über Shell-Skript

Beispiel 2: Wahlen 2015

Wahlen

Publizierte Artikel: Hier oder hier

Methodik / interaktive Auswertung: z.B. hier

--> DEMO

Beispiel 2: Wahlen 2015

  • Vor allem Vorprozessierung für Visualisierung
  • Daten und Methoden wurden noch nicht veröffentlicht, ist aber geplant
  • Interaktive Visualisierungen mit Shiny - u.a. für Kollegen (z.B. beim Radio)
  • Vorprozessierung von "Hand" kaum vorstellbar
  • Und immer wieder:

git status

Fazit

R ermöglicht uns:

  • alle Prozessierungsschritte an einem Ort zu bündeln

    • einlesen
    • vorprozessieren
    • auswerten
    • visualisieren
    • vorbereiten
    • etc.
  • Reproduzierbarkeit & Publikation der Methoden mit Markdown

Fazit

GitHub ermöglicht uns:

  • Austausch von Code und Daten (intern und extern)
  • Schnelle Publikation über GitHub Pages
  • Versionsvergleiche

Wir sind erst am Anfang und probieren viel aus.
Klar ist: Transparenz ist notwendig - und machbar!

Blut geleckt?



rddj.info - damit bringt Ihr Euch R bei

Danke

Fragen?

@grssnbchr

@srfdata

Diese Präsentation ist verfügbar (und reproduzierbar) unter github.com/grssnbchr/nr15-rddj Gemacht mit slidify und revealjs