blog.berndweiss.net

Unter anderem mit diesen Themen: Quantitative Soziologie, Statistik, R & LaTeX

Denkwerk braucht Werkzeug

without comments

Sebastian Bauhoff und Jens Hainmueller haben auf dem lesenswerten Social Science Statistics Blog vor einiger Zeit einen Artikel (sowie dessen Fortsetzung) veröffentlicht, der sich mit “Tools for Research (A Biased Review)” beziehungsweise “More Tools for Research” befasst. Ich werde im Folgenden einige ihrer Punkte aufgreifen, diese aber noch um eigene Überlegungen ergänzen. Dabei werde ich vor allem aus der Perspektive eines (sehr) empirisch orientierten Sozialwissenschaftlers argumentieren. Im Vordergrund steht dabei nicht eine (vielleicht eher idiologische geprägte) Diskussion von open-source vs. commercial software/closed-source, sondern es soll um die Produktivität im wissenschaftlichen Alltag gehen — wobei ich nicht verhehlen möchte, einen eindeutigen Hang zu quelloffener Software zu haben.

Bauhoff und Hainmueller beginnen mit einer Dichotomisierung der Harvardschen Studierendenschaft anhand deren bevorzugter Kombination von Schreib-/Setzprogramm und Statistikpaket in “MS Word and Stata (low tech)” und “LaTeX and R (high tech)”. In der Tat ist die Kombination von Schreiben und Rechnen im Wesentlich das, was mein täglich Brot ist. Produziert werden Zeitschriften- und Buchbeiträge, Vorträge und die dazugehörigen Folien, auch mal ein Poster und ab und an sogar ein ganzes Buch. Welche Anforderungen für die tägliche Arbeit gibt es?

  1. Der Text inkl. Tabellen, Abbildungen und Formeln soll typographischen Vorgaben genügen.
  2. Ich möchte mich nicht mit der Verwaltung meiner Literaturreferenzen befassen. Wenn ich etwas zitiere, dann sollen die bibliographischen Informationen automatisch im Literaturverzeichnis auftauchen. Wird ein Zitat gestrichen, dann soll auch der entsprechende Eintrag im Literaturverzeichnis gestrichen werden.
  3. Sowohl statistische Tabellen sowie Abbildungen sollen aktuell sein und die jeweils aktuelle Fassung der Daten berücksichtigen.

Sicherlich lassen sich noch weitere Punkte auflisten, aber an dieser Stelle soll es genug sein.

Ad 1. Ich kenne mich mit MS-Word, ein wenig WordPerfect, OpenOffice und LaTeX aus. Nach diversen Hausarbeiten, Buch- und Zeitschriftenartikeln sowie dem Satz eines Buches (zum Schulabsentismus) kann ich nur sagen, dass MS-Word meinen Anforderungen nicht genügt und auch WordPerfect sowie OpenOffice nicht wirklich viel besser sind. Die volle Kontrolle über den Text sowie ein korrektes/ansprechendes Erscheinungsbild ist nur mit LaTeX möglich [1]. An meine Diss lasse ich nur LaTeX und Emacs (+ AucTeX). Drei Probleme jedoch gibt es: 1) Die wenigsten Verlage in den Sozialwissenschaften akzeptieren entsprechende LaTeX-Dateien. 2) Die Zusammenarbeit mit anderen KollegInnen, die andere Software verwenden, ist schwierig. 3) Die Kosten (hier Zeit) für die Einarbeitung — vor allem, wenn R dazu kommt — sind hoch und sollten nur dann übernommen werden, wenn sicher ist, dass auch die nächsten Jahre mit solchen Arbeiten verbracht werden.

Ad 2. Es ist unbedingt empfehlenswert eine Literaturverwaltung zu verwenden. Ich persönlich kenne nur Endnote und BibTeX. Die eigentliche Verwaltung geschieht mit Endnote, das aber BibTeX-Files exportieren kann, die wiederum in meine LaTeX-Dateien eingebunden werden.

Ad 3. Das übliche Vorgehen beim Schreiben eines empirischen Aufsatzes ist wie folgt: (a) Schreibe Text mit Programm XYZ, (b) rechne mit Programm ZYX, (c) übertrage (mühselig und fehlerträchtig) die Ergebnisse aus ZYX nach XYZ. Dann ändert sich vielleicht die Datengrundlage (das passiert schon mal…) und alles auf Anfang bitte. Dass das auch anders geht, dafür sollen zwei Beispiele geliefert werden:

  1. Für die Kombination von Stata und MS-Word empfehlen Bauhoff und Hainmueller die Stata-Ados estout oder outreg. Genutzt habe ich beide noch nicht, insofern spare ich mir weitere Ausführungen dazu.
  2. Meine Vorstellungen von sinnvollem workflow werden von der Kombination R, Sweave und LaTeX abgedeck. Mit Sweave lassen sich in einem einzigen Dokument Text und Rechenvorschriften verknüfen. Dieses Sweave-Dokument wird in R “geparst” und in ein reines LaTeX-Dokument gewandelt, das nun aktuelle Tabellen und Abbildungen enthält beziehungsweise Verweise darauf. In meiner Diss verwende ich kein Sweave, sondern lasse mir von R sehr spezielle LaTeX-Tabellen erstellen. Nachfolgend ein Beispiel (die Ergebnisse sind noch unveröffentlich, deshalb habe ich die relevanten Informationen unkenntlich gemacht) bei dem sämtliche Einträge dynamisch, das heißt vom Inhalt der Datenbank abhängig, erzeugt werden:

    latex-tab1.jpg

    Weitere Beispiele sind meine R-Folien (R, Sweave, LaTeX) sowie die Folien zur dyadischen Datenanalyse (R, LaTeX).

 

Hier enden meine Empfehlungen, wenngleich der eine oder andere Aspekt vermutlich noch ausgebaut oder klarer formuliert werden könnte. Sollte es Fragen oder Anregungen geben, wäre es mir ein Vergnügen, diese in meinem kleinen Artikel zu berücksichtigen.

Zum Schluss noch ein paar Verweise auf Texte, die ähnlich argumentieren:

[1] Es lassen sich Dinge wie Ligaturen, optischer Randausgleich, gleichmäßigerer Grauwert, Portabilität zwischen verschiedenen OS und Softwareversionen als Vorteile anführen.

Written by Bernd Weiss

August 4th, 2007 at 11:59 am

Leave a Reply

Bad Behavior has blocked 829 access attempts in the last 7 days.

Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Germany
This work by Bernd Weiß is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Germany.