nr-Datenlabor

Reproduzierbarkeit im #DDJ

Warum und wie?

Timo Grossenbacher, SRF Data

@grssnbchr

@srfdata

Präsentation vefügbar unter grssnbchr.github.io/nrdl-rddj

Über mich

Ursprünglich: Studium Geographie & Informatik / Tages-Anzeiger

Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist

SRF Data

SRF Data

SRF Data

Mehr Rechercheteam, weniger Dienstleister

Ideen pitchen, Daten bekommen / sammeln, scrapen / einklagen

Daten bereinigen, visualisieren, analysieren, Story finden

Publikation auf srf.ch -> Übersicht, Interaktivität

Publikation in Radio und/oder TV -> Anekdoten, Details

Portfolio

Warum Reproduzierbarkeit?

1. Transparenz

2. Automatisierung

2b. Wiederverwendbarkeit

2c. Reduzierte Fehleranfälligkeit

Warum Transparenz?

Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden

Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen
– Gefahr der "Pseudo-Objektivität" steigt

Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren

vgl. Vortrag von Fernando Perez gestern

Stufen der Transparenz

  1. Quellenangaben (leider nicht selbstverständlich...)

  2. Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht

  3. Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)

  4. Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)

Exkurs: Wissenschaft

  • Studie in Nature, 2012: 47 von 53 Studien in der Krebsforschung sind nicht reproduzierbar

  • Portale wie PLOS one versuchen, Wissenschaft reproduzierbarer zu machen

Exkurs: Wissenschaft

Statistics Done Wrong

In der Praxis

Bezüglich Transparenz: srfdata.github.io

Bezüglich Automatisierung: Eidgenössische Wahlen 2015

Tools of Trade

R / RMarkdown

Git / GitHub

Tools of Trade

Transparenz & Open Data

Rüstungsexporte

Rüstungsexporte

Publizierter Artikel: Hier

Methodik und Rohdaten: Hier

Rüstungsexporte

  • Auswertung der Daten in R:

    • Reinladen
    • Vorprozessieren (messy -> tidy)
    • Erste Auswertungen inkl. Plots
  • Publikation als Markdown-HTML

  • Publikation auf GitHub Pages:

Eidgenössische Wahlen 2015

Welcome To SVP

Bildquelle: Jonas Bayona

 

 

Demo

Fazit

R ermöglicht uns:

  • alle Prozessierungsschritte an einem Ort zu bündeln

    • einlesen
    • vorprozessieren
    • auswerten
    • visualisieren
    • vorbereiten
    • etc.
  • Reproduzierbarkeit & Publikation der Methoden mit Markdown

Automate EVERYTHING!

Bildquelle: giphy.com

...and make it reproducible.

Blut geleckt?

rddj.info - damit bringt Ihr Euch R bei

Coursera "Developing Data Products"

grssnbchr/rddj-reproducibility-workflow

The next big thing: Project Jupyter

Auch spannend: Brian Keegan calls out 538 for openness in #ddj

Danke

Fragen?

@grssnbchr

@srfdata

Diese Präsentation ist verfügbar (und reproduzierbar) unter github.com/grssnbchr/nrdl-rddj

Gebaut mit slidify und revealjs