ARD/ZDF-Online-Studie 2008 kurz angewärmt
Vor etwa 2 Monaten wurde die ARD/ZDF-Online-Studie 2008 veröffentlicht (“Weihnachten war gestern“). Ich habe davon nicht so viel mitbekommen, weil ich off-line außer Landes war. Meine Aufmerksam wurde von Michael Blumes Beitrag “Weblogs in der Krise? Befunde der ARD/ZDF-Onlinestudie” geweckt und so habe ich in einer stillen Minute einen genaueren Blick auf den Teil “Mitmachnetz 2.0 – Rege Beteiligung nur in Communities” (alle aufgeführten Zahlen wurden diesem Text entnommen) geworfen, um Michaels Beitrag zu kommentieren. Unseligerweise kann man das nun nicht mehr so einfach machen, also habe ich beschlossen, einen kurzen Beitrag zu schreiben, den man an verschiedenen Stellen noch ausbauen könnte, doch dazu fehlt mir die Zeit — ist ja eigentlich auch nur ein Kommentar.
Unterscheidet sich die Nutzungszahlen von Blogs zwischen 2007 und 2008?
Mit einem Fokus auf Weblogs ist eine der ersten interessanten Zahlen die “gelegentliche oder regelmäßige” Nutzung von Web2.0-Diensten (“Weblog”) in den Jahren 2007 und 2008 (Tabell 3, S. 358). Von einer “gelegentlichen” Nutzung berichten 2007 11%, 2008 nur noch 6% aller Befragten. Die Zahlen für die “regelmäßige” Nutzung liegen bei 3% (2007) beziehungsweise 2% (2008). Naheliegend ist die Frage, ob die Unterschiede der Prozentwerte zwischen den beiden Erhebungszeitpunkten statistisch bedeutsam sind. Tatsächlich zeigt sich, dass die “gelegentliche” Nutzung von Weblogs zwischen 2007 und 2008 überzufällig stark gesunken ist (p = 0.00). Das 95%-Konfidenzintervall[1] der Prozentwertdifferenz liegt zwischen 0.026 und 0.073. Das heißt, die in der Stichprobe beobachtete Differenz von 5 Prozentpunkten kann in der Grundgesamtheit aller Onlinenutzer in Deutschland ab 14 Jahren auch bei 2.6 oder 7.3 Prozentpunkten liegen. Für die regelmäßige Nutzung von Weblogs hingegen finden sich keine bedeutsamen Unterschiede (p = 0.11). Zusammenfassend: Die gelegentliche Nutzung von Weblogs hat deutlich abgenommen, die regelmäßige Nutzung weist keine bedeutsamen Veränderungen auf.[2]
Bedeutung und Glaubwürdigkeit von Weblogs
Tabelle 8 (S. 360) enthält vier Aussagen zu Weblogs, denen “voll und ganz”, “weitgehend”, “weniger” oder “gar nicht” zugestimmt werden konnte. In früheren Beiträgen zu der ARD/ZDF-Online-Studie 2008 gehen weder Jan Schmidt noch Michael Blume auf die Tatsache ein, dass dieser Tabelle lediglich Aussagen von 283 von ursprünglich 1186 Befragten zugrunde liegen — eben genau die Teilstichprobe, die zuvor in Tabelle 7 angegeben hat, Weblogs zu kennen oder zu nutzen. Aus dieser Tabelle repräsentative Aussagen abzuleiten, finde ich gewagt; zumal sich aus Tabelle 7 auch ableiten lässt, dass diese Teilstichprobe eine etwas andere sozialstrukturelle Zusammensetzung aufweist, was wiederum zu Verzerrungen führen kann.
Verwunderlich ist auch, dass gerade einmal 4% der Befragten der Aussage zustimmen, dass die auf Weblogs verbreiteten Informationen voll und ganz glaubwürdig sind. Immerhin 12% stimmen voll und ganz der Aussage zu, dass Weblogs eine Konkurrenz zu professionellen journalistischen Angeboten darstellen. Möglicherweise schätze ich aber auch einfach die Verbindung von “glaubwürdig” und “professionellen journalistischen Angeboten” falsch ein…
Es ist im Kontext einer vergleichsweise allgemein gehaltenen Studie natürlich auch müßig darüber zu klagen, dass sämtliche Blogs in einen Topf geworfen werden und Wissenschafts-/WissenschaftlerInnenblogs mit anderen Bloggattungen verglichen werden. Es wäre jedoch interessant zu erfahren, ob auch W-Blogs in gleichem Maße ein Glaubwürdigkeitsproblem haben (immerhin 71% halten die Informationen für wenig oder gar nicht glaubwürdig). Gibt es Spill-over-Effekte?
Es ist bedauerlich, dass die Originaldaten nicht zur Verfügung stehen, mit deren Hilfe die Korrelationsmatrix für die vier Items konstruiert werden könnte. Danach könnte man sich anschauen, ob es ein gemeinsames latentes Konstrukt gibt. Gibt es Gruppen (Nutzungstypen, Bildungsgruppen etc.), wo diese Korrelationsstruktur variiert?
Fußnoten und Anhang
[1] Die Konfidenzintervalle wurden alle sehr naiv ermittelt, siehe dazu prop.test().
[2] Man sollte an dieser Stelle anmerken, dass ich gegen das Proportionalitätsgesetz verstoße, hier etwas besser erklärt. Mich interessieren aber vor allem die Konfidenzintervalle und die Faustregel, dass sich nicht überlappende Intervalle einen signifikanten Unterschied anzeigen.
Update: Besagte Faustregel ist, wie sich den Kommentaren entnehmen lässt, eher fraglich. Sich nicht-überlappende Konfidenzintervalle weisen auf einen signifikanten Unterschied hin.
## R-Code für die Berechnung der CI und die Konstruktion der Grafik ##
## Test auf Gleichheit von Anteilswerten (H0: p1 == p2 == ... == pn)
## Tabelle 3, S. 358
prop.test(x = c(126,72), n=c(1142,1186))
prop.test(x = c(35,23), n=c(1142,1186))
prop.test(x = c(126+35,72+23), n=c(1142,1186))
##Konstruktion der Grafik
library(lattice)
library(Hmisc)
jahr <- c(2007,2008,2007,2008)
type <- c("gelegentlich","gelegentlich","regelmaessig","regelmaessig")
anteile <-c(11,6,3,2)
lower <- c(
prop.test(x = c(126), n=c(1142))$conf.int[1]*100,
prop.test(x = c(72), n=c(1186))$conf.int[1]*100,
prop.test(x = c(35), n=c(1142))$conf.int[1]*100,
prop.test(x = c(23), n=c(1186))$conf.int[1]*100
)
upper <- c(
prop.test(x = c(126), n=c(1142))$conf.int[2]*100,
prop.test(x = c(72), n=c(1186))$conf.int[2]*100,
prop.test(x = c(35), n=c(1142))$conf.int[2]*100,
prop.test(x = c(23), n=c(1186))$conf.int[2]*100
)
ard <- data.frame(jahr,anteile)
xYplot(Cbind(anteile,lower,upper) ~ jahr, group = type,
ylim = c(-0.5,14), xlim = c(2006.5,2008.5), data = ard, type = "b",
main = "Nutzung von Weblogs", ylab = "Anteil in Prozent", xlab = "Jahr",
scales = list(x = list(at = c(2007, 2008))))



Wieder mal ein guter Beitrag, Bernd, danke! Habe es hier kommentiert und empfohlen:
http://religionswissenschaft.twoday.net/stories/5212614/#5217326
Und sorry wegen der verschärften Sicherheitseinstellung bei den Kommentarfunktionen: Auch dazu habe ich ein paar Worte geschrieben.
Michael Blume
26 Sep 08 at 10:07 am
Hallo Bernd,
nur eine kurze methodologische Anmerkung: Du schreibst von einer “Faustregel”, dass sich nicht überlappende Intervalle einen signifikanten Unterschied anzeigen. Das ist keine Faustregel, sondern IMMER der Fall (klar, beide CIs müsen das gleiche Niveau aufweisen, aber das dürfte ja banalerweise klar sein).
Der umgekehrte Fall ist problematisch: Wenn sich zwei CIs überlagern, dann kann möglicherweise bei einem direkten Test (also z.B zwei Mittelwerte von zwei Stichproben, bei denen die Differenz ganz klassisch getestet wird) durchaus ein signifikanter Unterschied festgestellt werden. Der Vergleich der CIs ist nämlich deutlich konservativer und das Ergebnis hängt hier von den Größen der beiden Stichproben ab. Wenn beide gleich groß sind, dann gibt es – wenn ich mich richtig erinnere – keine Unterschiede zum klassischen Test.
Genau das steht auch unter dem Bild in der englischsprachigen Wikipedia:
“…it is a common misconception to suppose that two parameters whose 95% confidence intervals FAIL to overlap are significantly different at the 5% level.”
Axel
26 Sep 08 at 1:32 pm
Hallo Axel,
danke für eine der sehr wenigen methodischen Anmerkungen auf diesem Blog — ich persönlich hätte gerne mehr davon.
Nun zur Sache selbst: In meiner Literaturdatenbank findet sich zu diesem Problem ein Hinweis auf einen Beitrag von Payton et al. (2003) “Overlapping confidence intervals or standard error intervals: what do they mean in terms of statistical significance?”, die u.a. in den Conclusions schreiben: “Caution should be exercised when the results of an experiment are displayed with confidence or standard error intervals. Whether or not these intervals overlap does not imply the statistical significance of the parameters of interest.” Ich interpretiere diese Aussage dahingehend, dass auch nicht-überlappende CI nicht notwendigerweise einen statistisch signifikanten Unterschied indizieren.
Bernd Weiss
26 Sep 08 at 1:51 pm
Hallo Bernd,
ich schaue noch eimal genauer in meiner statistischen Literatur nach. Was ich beim bloßen Überfliegen des von dir verlinkten Artikels (Danke!) aber gelesen habe, war genau das von mir erwähnte Problem:
“Whether or not these intervals overlap does not imply the statistical significance of the parameters of interest. If the researcher wishes to use confidence intervals to test hypotheses, it appears that when the standard errors are approximately equal, using 83% or 84% size for the intervals will give an approximate ? = 0.05 test. Theoretical results for large samples as well as simulation results for a variety of sample sizes show that using 95% confidence intervals will give very conservative results, while using standard error intervals will give a test with high type I error rates.”
Also: Bloßes Vergleichen der CIS: sehr konservativ -> sprich H_0 wird häufiger verworfen als angemesen (also nicht in 5 Prozent der Fälle sondern viel häufiger, daher bei kleineren CI’s – 83%, 84% und nicht 95% – schon ein alpha von 0,05). Anders ausgedrückt: Bei CI’s von 95% mehr Type-1-Fehler als “eigentlich” durch (1-0,95) erwünscht/erwartet. Über den beta-Fehler wird da nichts gesagt.
Daher interpretiere ich den ersten Satz in der Zusammenfassung auch so, dass man aus der Tatsache, dass sich die CIs überschneiden oder nicht nicht ohne Weiteres auf einen signifikanten Unterschied schließen kann, im Sinne von: “Da besteht keine 1:1-Übereinstimmung”. “Statistical insignificance” wird dabei nicht erwähnt. Das klingt zugegebermaßen recht doppeldeutig, aber der SPEZIELLE Fall “CIs nicht überlappend -> nichtsignifikanter Unterschied” scheint damit nicht gemeint zu sein.
Axel
26 Sep 08 at 3:10 pm
Jetzt habe ich mir den Artikel in Ruhe durchgelesen und bin schlauer. Inhaltlich geht es um zwei völlig verschiedene Intervalle: einmal Konvidenzintervalle und dann um sog. Standardfehlerintervalle. Von letzteren habe ich in sozialwissenschaftlichen Publikationen noch nie etwas gelesen, daher wohl auch mein Unverständnis beim Überfliegen.
Was die gewohnten Konfidenzintervalle angeht (also z.B. ein 95-Prozent-CI für einen Mittelwert: Bedeutung: Wenn man sehr häufig eine Stichprobe zieht, wird in 95 Prozent der Fälle der wahre Wert der Grundgesamtheit im den jeweils pro Stichprobe berechneten CIs enthalten sein), dann gilt meine Aussage im Hinblick auf die Überlappung zweier CIs – das Verfahren ist sehr konservativ (ein deutlich kleineres alpha) und wird deshalb nicht als Alternative zum direkten Test empfohlen:
“In other words, the 95% confidence intervals will overlap over 99% of the time. The consequences of using 95% confidence intervals should be evident. If you compare these intervals with the expectation of mimicking an ? = 0.05 test, what you actually would be doing is performing a test with a much too conservative type I error rate. In other words, the 95% intervals are too wide, resulting in a procedure that declares differences at a proportion much less than the desired ? = 0.05 rate.” (S. 2)
Das heißt aber im Umkehrschluss – und die Simulation zeigen das ja auch – dass du dir im Fall von nicht-überlappenden CIs keine Gedanken machen musst, was das Verwerfen von H_0, also beide Mittelwerte sind gleich, angeht. Das ist weiterhin berechtigt.
Ganz anders sieht es aber bei den mir bisher völlig unbekannten Standardfehlerintervallen aus. Laut Artikel gehen einige Leute folgendermaßen vor: Sie vergleichen zwei Mittelwerte plusminus die jeweiligen Standardfehler und schließen aus dem Nichtüberlappen, dass die Mittelwerte unterschiedlich sind. Wenn man sich überlegt, wie der Standardfehler in die Berechnung eines CIs eingeht, dann dürfte aber klar sein, warum das Murks ist und hier die Verhältnisse umgekehrt sind:
The large-sample probability of standard error intervals
overlapping when the two populations are identical can be easily
found by using expression (5) and replacing z?/2 with 1 … This probability is equal to 0.843. Thus, examining overlap between
standard error intervals to test hypotheses regarding equality of
means would be akin to performing a test with a type I error rate of about 15% or 16%. (und nicht 5 Prozent, Axel) (S. 2)
Axel
26 Sep 08 at 8:00 pm
Hallo Axel,
habe vielen Dank für Deinen sorgfältigen Kommentar. Ich werde mir das Papier in den nächsten Tagen noch einmal genauer anschauen und habe dem, was Du sagst, nichts entgegenzusetzten. Den Unterschied zwischen Konfidenzintervall- und Standardfehlerintervalle habe ich auch bemerkt, mich aber bei meinen Ausführen nur auf das CI konzentriert.
Bernd Weiss
26 Sep 08 at 8:52 pm
Ich habe ein grundsätzliches Problem mit Studien dieser Art (nicht mit deinem Post, der ist mal wieder sehr lesenswert). Ich denke nicht, dass die Frage danach, ob man Blogs kenne oder nutze als Filter genügt. Meine These: Die meisten Nutzer haben keine Vorstellung davon, was ein Blog ist und was nicht. Der Anteil der Nutzer, die Paul Krugmans “The Conscience of a Liberal” in der New York Times als Blog identifizieren können, geht gegen wahrscheinlich gegen null. Und wahrscheinlich spielt das für sie auch gar keine Rolle. Das Bild der Blogger in den Medien (ich sage nur “Klowand” und “Hank Moody”) prägt die Vor
urteilestellungen darüber, was so ein Blog ist und inwiefern man diesem Medium vertrauen kann. Nicht das, was die Nutzer tatsächlich in den Blogs gelesen haben.Benedikt
30 Sep 08 at 9:33 pm
@ Benedikt: Du schreibst: “Ich denke nicht, dass die Frage danach, ob man Blogs kenne oder nutze als Filter genügt. Meine These: Die meisten Nutzer haben keine Vorstellung davon, was ein Blog ist und was nicht”.
Es geht doch gar nicht darum, was mit Blogs alles möglich ist und welche überragenden Möglichkeiten sie bieten können, sondern tatsächlich geht es doch um die öffentliche Wahrnehmung, um das “Bild der Blogger in den Medien”. Deinen letzten Satz “Nicht das, was die Nutzer tatsächlich in den Blogs gelesen haben.” könnte man wie folgt ergänzen: “…, wenn sie denn gewusst hätten, dass sie eben ein Blog gelesen haben”. Intervention setzt eine Diagnose (Ist-Zustand) voraus, das können Untersuchungen dieser Art (vielleicht nicht speziell diese …) schon leisten.
Was ich nachvollziehen kann, ist eine grundsätzliche Kritik an der Frage nach der Glaubwürdigkeit in Blogs (siehe auch die Einleitung zu Die Glaubwürdigkeit von Blogs nach Nutzer- und Motivgruppen). Ich persönlich denke aber schon, dass sich Teilmengen von (Fach-)Blogs diese Frage gefallen lassen müssen.
Bernd Weiss
1 Oct 08 at 6:55 am
Ich denke nur, dass in diesem Fall die Frage an zwei Stellen (Was ist ein Blog? Wie glaubwürdig sind Blogs?) so offen ist, dass sich die Ergebnisse nicht mehr sinnvoll interpretieren lassen. Wenn nach der Frage nach der Blognutzung eine kurze offene Frage erheben würde, was genau denn die befragte Person unter Blog versteht, wäre das sicher erhellend. Dasselbe gilt natürlich auch für Leerformeln wie “professioneller Journalismus”. So ist dieser Teil der Umfrage leider nicht sehr viel erhellender als eine Frage danach, ob die Leute der Meinung sind, der LHC leiste einen sinnvollen Beitrag zum wissenschaftlichen Fortschritt.
Benedikt
1 Oct 08 at 9:57 am
@ Benedikt: Eigentlich möchte ich nicht in die Verlegenheit kommen, die ARD/ZDF-Online Studie verteidigen zu müssen, doch in Hinblick auf die zwei Fragen (Was ist ein Blog? Wie glaubwürdig sind Blogs?) teile ich Deine Einschätzung nicht, “dass sich die Ergebnisse nicht mehr sinnvoll interpretieren”, weil die Fragen zu offen gestellt wurden.
Die Forschungsfrage lautete doch (vermutlich): Wie bekannt sind Weblogs? (Frage nach dem Begriff; Verbreitung eines Phänomens) Die Forschunsfrage lautete (vermutlich) nicht: Kennen Sie im WWW ein Medium, dass “eine abwärts chronologisch sortierte Liste von Einträgen, die in bestimmten Abständen…” zulässt? (Frage nach einer Funktionalität; die Formulierung ist vielleicht etwas krude).
Deine Anmerkung “Wenn nach der Frage nach der Blognutzung eine kurze offene Frage erheben würde, was genau denn die befragte Person unter Blog versteht, wäre das sicher erhellend.” könnte man zum Anlass einer kleineren qualitativen Studie nehmen, um den Deutungsgehalt des Begriffs zu erfassen. Nicht mal ich
bin mir sicher, ob ich diese Fragen quantitativ klären wollte.
Der Begriff Glaubwürdigkeit lässt sich bestimmt auch besser operationalisieren.
Deine Kritik an beide Fragen betrifft in meinen Augen auch Aspekte der Forschungs-, von mir aus auch Umfrageökonomie: Fragen hat man (immer) genug, allein die Befragungszeit ist (zum Glück für die Befragten und nachfolgende Forschergenerationen) begrenzt.
Bernd Weiss
1 Oct 08 at 11:21 am
Ich bin absolut deiner Meinung. Es geht mir nur darum, im Hinterkopf zu halten, dass wir es hier nicht mit der Bekanntheit von Weblogs zu tun haben, sondern mit der Bekanntheit von Dingen, die Leuten in den Sinn kommen, wenn ihnen der Stimulus “Weblog” angeboten wird. Gerade bei diesem Thema, das sogar innerhalb der Blogosphäre hoch umstritten ist (Bildblog – Blog oder nicht?) dürfte dieser Begriff sehr unscharfe Grenzen haben. Wenn man dann auf ein derart fuzzy-definiertes Konzept aufsetzt und noch weiter fragt (Glaubwürdigkeit), wird das Ergebnis vage und vorsichtig zu interpretieren sein. Es ist mir einfach nicht klar, wie die Definition von Weblog auf S.357 mit den erhobenen Zahlen zusammenhängt bzw. wieviele der Befragten von eben dieser Weblog-Definition der Forscher ausgehen. Die Frage nach YouTube, also einer Marke halte ich für sehr viel aussagekräftiger – das geht bei Blogs leider nicht.
Was mich an der Studie stört ist, dass diese Beobachtungen dann in die Richtung interpretiert wird, dass das Phänomen Weblogs an Bedeutung verliert bzw. irrelevant ist. Der entsprechende Abschnitt in der Studie ist übertitelt mit “Nutzung von Weblogs ist zurückgegangen”. Das steckt meiner Ansicht nach in den Daten einfach nicht drin.
Benedikt
1 Oct 08 at 11:37 am
@ Benedikt: Volle Zustimmung!
Bernd Weiss
1 Oct 08 at 11:49 am
Ich bin kein Fachwissenschaftler, sondern nur Lehrer (u.a. für Politik und Wirtschaft, was den Umgang mit Statistiken zumindest nicht unwahrscheinlicher macht) und besinne mich noch, dass ich bei einer Antwort, die in Habermas’ Studie “Student und Politik” als “irrational von Politik distanziert” gewertet wurde, voll zustimmen konnte.
Ich habe damals schon ein politisches Tagebuch geführt und kann noch heute von Distanz zur Politik in diesem Tagebuch nichts finden. Das heißt: Die mathematische Auswertung mag perfekt sein. Zunächst aber ist wichtig, ob die Frage erlaubt, eine nicht-falsche Aussage zu machen.
Bei der Frage nach der Glaubwürdigkeit von Blogs kann jemand, der Blogs kennt, nur “teils/teils” sagen oder raten, wonach eigentlich gefragt ist.
Ich würde, wenn gefragt, raten, dass die durchschnittliche Glaubwürdigkeit von Blogs gefragt ist (damit fielen für mich wissenschaftliche Blogs als – nach meiner Beobachtung – immer noch kleine Minderheit für den Durchschnitt fast nicht ins Gewicht).
Bei der Standardfrage nach der Glaubwürdigkeit von Berufsvertretern könnte ich noch Politiker und Physiker halbwegs gut auseinanderhalten. Aber bei Medien? Ulrich Beck wird mir doch nicht unglaubwürdiger, ob er sich im Fernsehen oder in einer Zeitung äußert, Kurt Beck ebenfalls nicht. Natürlich halte ich “arte” für glaubwürdiger als die “Bildzeitung” und kann deshalb der naheliegenden Aussage, dass Fernsehen weniger glaubwürdig sei als Zeitungen auch nicht sinnvollerweise zustimmen.
apanat
28 Oct 08 at 12:24 am
@apanet: Ich stimme sofort zu, dass die Messung von “Glaubwürdigkeit” (von was auch immer) mit Problemen verbunden ist. Ich habe mich auch noch nie weiter damit befasst, weiß also nicht, ob bereits psychometrisch getestete Skalen existieren.
Ich verstehe allerdings den folgenden Teil des Kommentars nicht ganz: “Ich würde, wenn gefragt, raten, dass die durchschnittliche Glaubwürdigkeit von Blogs gefragt ist (damit fielen für mich wissenschaftliche Blogs als – nach meiner Beobachtung – immer noch kleine Minderheit für den Durchschnitt fast nicht ins Gewicht).”
Nehme ich meine eigenen Nutzungsgewohnheiten als Maßstab, dann lese ich fast nur W-Blogs und dementsprechend wurde ich die Frage nach der Glaubwürdigkeit mit “hoch” beantworten — vielleicht würde ich auch verweigern, weil mir die Frage zu undifferenziert vorkäme… insofern verstehe ich die Anmerkung wohl doch…
Auf jeden Fall freue ich mich, dass ich das Interesse eines Politik- und Wirtschaftslehrers wecken konnte
Bernd
29 Oct 08 at 5:50 am
Weiter dazu, dass man von einem Normalfragebogen mindestens einmal gezwungen wird, falsch zu antworten:
Wie viele Stunden am Tag tun Sie dieses/jenes?
Wer weiß das von sich schon. Es wechselt innerhalb einer Woche von 24 Stunden zu nichts. Innerhalb eines Monats tut man es nie innerhalb eines anderen 20 Tage.
Extrembeispiel Wikipedia oder andere suchtauslösende Erscheinungen:
Man verordnet sich vielleicht eine Unterbrechung von drei Monaten.
Frage: Wie oft, wie lange haben Sie in den letzten drei Monaten?
Man schreibte vielleicht Artikel in Simple English Wikipedia
Frage: In welcher Sprache schreiben Sie die meisten Artikel?
Englisch wäre zwar richtig, aber völlig missverständlich, wenn man in der englischen Wikipedia vielleicht drei Artikel geschreiben hat, in Simple English aber mehrere hundert.
Frage: Wie viele Artikel haben Sie selbständig verfasst?
Wie viele haben Sie übersetzt?
Man hat vielleicht drei Artikel selbständig verfasst, einen übersetzt, aber über tausend aus dem Englischen vereinfacht?
Welche Sprachen können Sie lesen?
Als Sprachunbegabter kann man vielleicht nur zwei Sprachen relativ gut lesen, aber über zwanzig orientierend, wenn man bedenkt, dass in Wikipedia Dialekte auch als Sprachen gerechnet werden.
Frage: Welche Sparte von Wikimedia benutzen Sie, in welcher schreiben Sie außerdem Artikel?
Dass jemand Wiktionary nie benutzt, sondern dort nur Artikel einstellt, kommt nicht vor.
Wenigstens beim Geschlecht ist jetzt auch noch eine dritte Antwortmöglichkeit vorgesehen.
Dabei haben sich die Verfasser des Fragebogens gewiss von Kennern der Wikimediainstitutionen und -sparten beraten lassen.
Dass man auch in Sprachen Artikel einstellen kann, die man nicht einmal lesen kann, geht einem solchen Fragebogenersteller natürlich überhaupt nicht ein, dabei werden inzwischen Hundertausende von Artikeln von Softwareprogrammen erstellt.
Ich schreibe zu Wikipedia, weil ich dort etwas zu Hause bin und dort öfter Fragen beantwortet habe. Aber mit dem Fernsehkonsum, mit dem Lesen, mit den Hobbys usw. ist es doch genauso. Nie weiß man die Zeiten, die man dafür verwendet, stets wechseln sie innerhalb kurzer Zeiträume relativ stark. Nun schon gar die Frage nach dem “Lieblingsbuch”, dem “Lieblingsautor”, dem “Lieblingsmusikstück”. Nun ja, danach fragt auch niemand ernsthaft.
Noch schwerer freilich Fragen, die man nicht einmal mit Nachdenken und sehr fleißiger Selbstbeantwortung richtig beantworten kann. In der Politik kann man seit Eppler wertkonservativ sein und deshalb Parteimitglied der Linken sein. Aber was schreibt man, wenn zwar konservativ und fortschrittlich, aber wertkonservativ nicht vorgesehen ist?
Wer ist seit Hartz IV noch für Reformen, obwohl er sein Leben lang nichts anderes getan hat, als sich für Reformen einzusetzen?
Ich bitte, mich nicht misszuverstehen: Es gibt immer wieder Fragen, die man richtig beantworten kann. Aber auch dann weiß man schon, dass sie auf jeden Fall falsch eingeordnet werden, wenn man auch nur vier Fragen gesehen hat.
Schon gar die “Kontrollfragen”. Sie sollen dafür dienen, zu überprüfen, ob man vorher richtig geantwortet hat. Aber man kann sie – wenn man ehrlich ist – nur anders beantworten als die Parallelfrage. Nun gut, wenn ich die Kontrollfrage erkenne, passe ich sie an die andere an.
Schließlich:
Man ist bei Frage 35 und merkt, was der Verfasser mit Frage 12 gemeint hat. Man darf zurück und korrigieren, aber nur um 10 Fragen.
Was bringt mir da eine statistisch korrekte Auswertung?
Zu Recht sagte Marx: “Ich bin kein Marxist.” Welcher Auswerter hätte das richtig ausgewertet?
Ich habe also offenkundig schon Erfahrungen mit Fragebögen gemacht. Aber dafür, so antworten zu können, wie der Fragebogenschreiber seine Frage gemeint hat, fehlt mir noch vieles.
Trotzdem ist es immer wieder interessant die Auswertungen von Fragebögen zu lesen und sich vorzustellen, das was da steht, hätte etwas mit dem zu tun, was der Beantwortende eigentlich sagen wollte, aber nicht durfte.
apanat
30 Oct 08 at 8:32 am
Ihnen besten Dank, dass Sie so freundlich auf meinen Beitrag eingehen, obwohl ich mich mit Ihrem eigentlichen Interesse, der wissenschaftlich korrekten Auswertung, nicht befassen will.
Übrigens: Natürlich habe ich immer wieder meine Schüler befragt und aus der Tatsache, dass einmal ein Kurs zu über 80% grün wählen wollte, fünf Jahre darauf aber nur noch 15% und aus der Tatsache, dass Union + SPD mal auf etwa 90% kamen und mal auf ca. 10% meine Schlüsse gezogen, obwohl ich weiß, dass schon im Parallelkurs am selben Tag die Ergebnisse genau umgekehrt sein konnten.
Natürlich habe ich auch mal etwas von Stichproben gehört. Und deshalb habe ich meine Schlüsse auch mehr als auf Tendenzen, denn als auf Wirklichkeit bezogen gewertet.
Wer will schon auf die Frage “Liebst du mich?” eine korrekte Antwort?
apanat
30 Oct 08 at 8:57 am
@ apanat, Oct 30th, 2008 at 8:32 am:
Was ist ein “Normalfragebogen”? Ich kenne standardisierte, teilstand. etc. Fragebögen, siehe das Stichwort Fragebogen im PflegeWiki.
Wenn ich den Kommentar richtig verstehe, dann lautet die Kritik, Fragebogenkonstrukteuren gelingt es nur selten das Kontinuum möglicher Antwortern vollständig abzudecken. Dieser Kritik kann ich teilweise zustimmen, insbesondere die Wikipedia-Befragung erscheint mir halbwegs unprofessionell gestaltet. Es ist auch immer klug, Fragebögen, die Formulierung und die Platzierung der Items kritisch zu hinterfragen (das ist eigentlich schon ein Allgemeinplatz…). Mehr kann ich dazu (in der Kürze) nicht sagen.
@ apanat, Oct 30th, 2008 at 8:57 am:
Na ja, ich hoffe, dass ich deutlich mache, dass mich noch mehr interessiert als nur die “wissenschaftlich korrekte[..] Auswertung”.
Was nun die Angaben der Schülerschaft betrifft: Zum einen hat die Shell Jugendstudie ganz schön belegt, dass Jugendliche in den letzten Jahren “etwas traditioneller” geworden sind. Zum anderen sind das natürlich extrem kleine und selektive Stichproben. Auf dieser Grundlage bereits “Tendenzen” abzuleiten… nun ja, kann man machen
Bernd
1 Nov 08 at 9:52 am
@Schülerschaft: Natürlich hatten wir dabei kein Interesse, etwas für andere herauszufinden.
Bemerkenswert war freilich, dass 1989 kein einziger aus einem damals befragten Oberstufenkurs für die Einigung war, bei späteren Befragungen nie jemand dagegen.
Wissenschaftlich aussagekräftig ist so etwas nicht. Der Sinn einer solchen Befragung ist natürlich, dass das Interesse der Gruppe an der Fragestellung geweckt werden soll. Im Rückblick kann man dann diskutieren, weshalb 1989 so viele anders dachten.
apanat
1 Nov 08 at 10:58 pm