Timo Grossenbacher, SRF Data
Präsentation vefügbar unter grssnbchr.github.io/nrdl-rddj
Ursprünglich: Studium Geographie & Informatik / Tages-Anzeiger
Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist
Mehr Rechercheteam, weniger Dienstleister
Ideen pitchen, Daten bekommen / sammeln, scrapen / einklagen
Daten bereinigen, visualisieren, analysieren, Story finden
Publikation auf srf.ch -> Übersicht, Interaktivität
Publikation in Radio und/oder TV -> Anekdoten, Details
1. Transparenz
2. Automatisierung
2b. Wiederverwendbarkeit
2c. Reduzierte Fehleranfälligkeit
Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden
Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen
– Gefahr der "Pseudo-Objektivität" steigt
Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren
vgl. Vortrag von Fernando Perez gestern
Quellenangaben (leider nicht selbstverständlich...)
Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht
Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)
Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)
Studie in Nature, 2012: 47 von 53 Studien in der Krebsforschung sind nicht reproduzierbar
Portale wie PLOS one versuchen, Wissenschaft reproduzierbarer zu machen
Bezüglich Transparenz: srfdata.github.io
Bezüglich Automatisierung: Eidgenössische Wahlen 2015
Publizierter Artikel: Hier
Methodik und Rohdaten: Hier
Auswertung der Daten in R:
Publikation als Markdown-HTML
Publikation auf GitHub Pages:
Bildquelle: Jonas Bayona
R ermöglicht uns:
alle Prozessierungsschritte an einem Ort zu bündeln
Reproduzierbarkeit & Publikation der Methoden mit Markdown
Bildquelle: giphy.com
rddj.info - damit bringt Ihr Euch R bei
Coursera "Developing Data Products"
grssnbchr/rddj-reproducibility-workflow
The next big thing: Project Jupyter
Auch spannend: Brian Keegan calls out 538 for openness in #ddj
Diese Präsentation ist verfügbar (und reproduzierbar) unter github.com/grssnbchr/nrdl-rddj