[00:00:01.470] – Charlotte Buttkus, PHINEO gAG
Bei der Auswertung von quantitativen Daten bieten sich die folgenden sechs Schritte an.
[00:00:08.880] – Charlotte Buttkus, PHINEO gAG
1. Datenaufbereitung. Das bedeutet, die Daten in eine Form zu bringen, in der sie ausgewertet bzw. analysiert werden können. Dazu muss man die Daten meist in ein Daten-Verarbeitungs-Programm einlesen z.B. z.B. SPSS, R oder eine Tabellenkalkulationsprogramm. Stammen Daten aus einer Befragung, die in Papierform durchgeführt wurde, so müssen die Daten erst einmal händisch in das Programm eingetippt werden. Der Nachteil ist, dass das relativ zeitaufwendig ist und auch fehleranfällig. Für diesen Schritt der Dateneingabe gibt es auch automatisierte Verfahren per Scanner, die die Daten einlesen. Aber diese stehen häufig nur großen Organisationen wie z.B. Universitäten zur Verfügung und es lohnt sich eigentlich auch erst bei einer großen Datenmenge. Wurde die Befragung online durchgeführt, entfällt dieser Schritt der Dateneingabe. Das ist natürlich relativ attraktiv und dafür gibt’s auch eine ganze Reihe Online-Befragung Tools, die man nutzen kann. Sie bieten meist auch eine erste deskriptive, automatisierte Auswertung der Daten an.
[00:01:17.930] – Charlotte Buttkus, PHINEO gAG
2. Daten säubern. Hier schaut man sich die Daten an und korrigiert z.B. grobe Fehler in der Dateneingabe, also etwa die Antwort 55 anstelle von 5 auf einer Skala von 1 bis 7. Oder man entfernt gezielt Ausreißer, bevor man die Daten auswertet, um die Ergebnisse nicht zu verzerren. Ein Ausreißer wäre z.B., wenn jemand immer einen deutlich anderen Wert gibt als alle anderen Befragten. Und Ausreißer verlässlich zu erkennen, erfordert durchaus Expertise. Man sollte unter anderem im Vorhinein Kriterien für Ausreißer festgelegt haben, also bevor man sich die Daten anschaut.
[00:01:57.320] – Dr. Franziska Pfitzner-Eden PHINEO gAG
3. Deskriptive Ergebnisse erstellen. Für alle interessierenden Variablen werden zunächst deskriptive Datenanalysen durchgeführt, um beschreibende Ergebnisse zu erstellen. Die Daten werden genau so wie sie sind, für alle Befragten zusammengefasst, z.B. in Tabellen. Quantitative Daten kann man unterteilen in sozio demografische Informationen und Informationen inhaltlicher Art. Die sozio- demographischen Informationen beschreiben die Befragten. Typische sozio-demografische Informationen sind so Dinge wie Alter, Geschlecht und Migrationshintergrund. Und damit kann man dann Aussagen treffen, wie z.B. 60 prozent der Befragten haben einen Migrationshintergrund. Informationen inhaltlicher Art beschreiben oft Ausprägungen von Zustimmung oder Ablehnung zu bestimmten Aussagen, z.B. bei einem Deutschkurs für geflüchtete Frauen könnte ich fragen: “Wie zufrieden sind sie mit der Lehr-Qualität des Kurses?” Und die Teilnehmenden könnten dann aus sieben Antwortmöglichkeiten auswählen, die dann reichen von 0 sehr unzufrieden bis 6 sehr zufrieden.
[00:03:10.940] – Dr. Franziska Pfitzner-Eden PHINEO gAG
4. Gebenenfalls weiterführende Datenanalysen durchführen z.B. Hypothesenprüfende Verfahren wie Gruppen-Vergleiche mit Signifikanztest. Eine Fragestellung könnte in diesem Zusammenhang sein: “Lässt sich mit großer Wahrscheinlichkeit feststellen, dass Jungen mit einem Angebot zufriedener sind als Mädchen”. Ein anderes Beispiel für weiterführende Analysen sind Korrelations und Regressions-Analysen, mit denen man Zusammenhangsypothesen überprüft. Also ist z.B. der Familienstand entscheidend dafür, ob man im Home Office gut arbeiten kann oder nicht. Für solche weiterführenden Datenanalysen braucht man allerdings ein gewisses Maß an fachlicher Expertise in Statistik.
[00:03:56.870] – Dr. Franziska Pfitzner-Eden PHINEO gAG
5. Eine systematische Übersicht der Ergebnisse für Projektverantwortlichen und gegebenenfalls relevante Stakeholder erstellen. Also eine Übersicht über Häufigkeiten und eventuell Mittelwerte der Antwortkategorien und gegebenenfalls kann man zusätzlich die Ergebnisse auch noch in Abhängigkeit von sozio-demographischen Merkmalen darstellen. Hierfür eignen sich Tabellen und Diagramme wie die Klassiker Kuchen oder Balkendiagramm, aber auch innovativere Diagramme, die die Ergebnisse übersichtlich darstellen. Hier kann man richtig kreativ werden. Letztendlich schließt sich dann 6. Der Schritt der Daten-Interpretation und -Bewertung an.
[00:04:42.740] – Charlotte Buttkus, PHINEO gAG
Egal ob bei qualitativer oder hier bei quantitativer Datenauswertung, Fehler können sich in jedem Prozess Schritt einschleichen. Deshalb lohnt es sich immer wieder, Plausibilitäten-Checks durchzuführen und gegebenenfalls auch eine weitere Person hinzuzuziehen, die einen dabei unterstützt. Und wenn man Ergebnisse hat, die sich sehr stark widersprechen oder die stark von dem abweichen, was man eigentlich erwartet hat, dann lohnt es sich da auch nochmal genauer hinzuschauen, denn das kann auf Auswertungsfehler hindeuten und gegebenenfalls sollte man dann auch nochmal Expert*innen um Rat fragen.
[00:05:25.600] – Thomas Knoll, CARE Deutschland e.V.
Wir haben zunächst begonnen, alle standardisierten Instrumente, die wir haben, also quasi die Anmeldung und Bedarfsermittlung, dann die Evaluierung der Fortbildungen im zweiten Schritt und im dritten Schritt, die Abschluss-Evaluierung online. Die haben wir alle zunächst mal univariat ausgewertet. Das heißt, wir haben erst einmal statistisch quasi die Rand-Auszählungen vorgenommen und Prozente gebildet über alles, was wir erhoben haben. Das war der erste Schritt. Dann haben wir uns das angeschaut und haben überlegt, muss man eventuell bestimmte Antwort Kategorien… Kann man die nochmal zusammenfassen, damit man zum Beispiel, wenn die Fallzahlen sehr niedrig sind, wenn es nur um Tendenzen geht, wo macht es z.B. Sinn, Zustimmungstendenzen und Ablehnungstendenzen zusammenzufassen und das Spektrum so ein bisschen einzugrenzen. Das heißt, wir haben dann die Ergebnisse versucht, dann nochmal ein bisschen aufzubereiten, damit sie aussagekräftiger werden und besser verwendbar sind. Und dann haben wir aber tatsächlich auch nochmal versucht, sozusagen auch Antworten miteinander zu kreuzen. Also das nennt sich dann divariate Auswertung. Also zu schauen, welche Aussagen treffen denn nur auf eine bestimmte Gruppe zu oder unterscheidet sich zum Beispiel eine bestimmte Aussage nach Schulformen beispielsweise oder ist die Bewertung unterschiedlich, wenn wir selbst an die Schule gehen oder wenn die Lehrkraft selber eigentlich alle Workshops durchführt. Das ist dann im nächsten Analyse Schritt wichtig. Parallel dazu haben wir gesagt, die ganzen Instrumente, die wir sowieso schon haben, die müssen wir ja auch auswerten. Und da ist natürlich, weil das die höchsten Fallzahlen hat, ist die Einsatzliste und die Anmeldungen, da gehen uns gar keine Daten verloren, weil wir das mit allen Teilnehmenden machen müssen.
Kernaussagen
- Um quantitative Daten auszuwerten, müssen diese zunächst in ein auswertbares Format gebracht und gesäubert werden.
- Ergebnisse werden systematisch abgebildet, und dann interpretiert und bewertet.
- Auch bei quantitativer Datenauswertung können Plausibilitäts-Checks helfen, Auswertungsfehler zu identifizieren, die die Aussagen stark verzerren können.
Teste dein Wissen
Wissen vertiefen
In diesem Video gehen wir auf die Arbeit mit quantitativen Daten näher ein. Insbesondere die Verwendung der unterschiedlichen Skalenniveaus wird Schritt für Schritt erklärt. Dieses Video ist als Ergänzung zur Auswertung von quantitativen Daten gedacht, für alle, die noch tiefer in das Thema eintauchen wollen.
[00:00:01.330] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Wie man bei der quantitativen Datenanalyse prinzipiell vorgeht, erscheinend auf den ersten Blick ja relativ eingängig, aber was muss man jetzt konkret beachten, damit man am Ende nicht kompletten Datensalat produziert. Bei quantitativen Befragungen werden die Antwortmöglichkeiten, aus denen die Teilnehmenden auswählen können, meist nur mit Zahlenwerten hinterlegt? Ja, man sagt die Antwortkategorien werden kodiert. Die Teilnehmenden sehen dann beispielsweise im Rahmen einer Befragung die Antwortmöglichkeit “weiblich” und hinterher in den Daten sieht man dann nur noch z.B. die Zahl eins. Oder es gibt eine 5 stufige Ratingskala zur Zustimmung, die von “trifft gar nicht” zu bis “trifft vollkomme” zu reicht und die Antworten darauf werden mit den Zahlen 1 bis 5 kodiert. Also 1 für “trifft gar nicht zu”. 2 für “trifft nicht” zu bis zu 5 “trifft vollkommen zu”. Abhängig vom Format der Antwortskala bzw. dem Skalenniveau meiner Daten kann ich nun ganz verschiedene Berechnungen anstellen bzw. ganz wichtig: viele Berechnungen kann ich eben nicht anstellen, wenn sich das Skalenniveau dafür nicht eignet.
[00:01:25.630] – Charlotte Buttkus, PHINEO gAg
Es gibt vier Skalenniveaus: Nominal, Ordinal, Intervall und Verhältnis. Ein klassisches Beispiel für eine Nominalskala ist Geschlecht. Hier könnten Antwortkategorien sein “männlich”, “weiblich”, “divers”, eventuell kodiert mit den Zahlen eins, zwei, drei. Hier kann man Häufigkeiten in jeder Kategorie zählen und Prozente berechnen, also z.B. den Anteil der Teilnehmenden, die sich als “weiblich” identifizieren. Das könnten z.B. 55 Prozent sein. Ein Beispiel für eine Ordinalskala sind typische Ratingskalen z.B. zur Zufriedenheit. Da könnte es eine 5 stufige Antwortskala geben. Die von 1 “trifft gar nicht” zu bis 5 “trifft vollkommen” zu reicht. Und hier kann man ebenso wie bei nominalen Skalen Häufigkeiten in den verschiedenen Antwort Kategorien zählen und Prozente berechnen. Man kann aber darüber hinaus die Antworten in eine sinnvolle Rangfolge bringen. Die Antwort Kategorie 5 in unserem Beispiel der Zufriedenheit bedeutet eine höhere Zufriedenheit als die Antwort Kategorie 4 Wenn man also 4 ankreuzt, hat man auch eine höhere Zufriedenheit, als wenn man die Kategorie 3 ankreuzt. Und so bauen diese verschiedenen Antwort Kategorien aufeinander auf. Bei den beiden bisher genannten Skalen liegen die Daten in Kategorien vor, denen man Zahlen zuordnen kann. Das hat den Vorteil, dass man sie übersichtlicher zusammenfassen kann. Man spricht hier auch von sogenannten kategorialen Daten. Ab der Intervallsskala liegen die Daten quasi als echte Zahlen vor. Man spricht auch von metrischen Daten und ein Beispiel für eine Intervallsskala, die jeder kennt, ist die Celsius Temperatur Skala. Hier sind die Intervalle oder Abstände zwischen den einzelnen Antwortmöglichkeiten oder Zahlen auf der Temperatur Skala genau gleich. Man kann die Abstände also exakt bemessen. Dann kann man dann auch Aussagen treffen wie draußen ist es 10 Grad wärmer als drinnen, wenn es draußen 30 Grad Celsius hat und drinnen 20 Grad Celsius.
[00:03:35.110] – Charlotte Buttkus, PHINEO gAg
Und last but not least gibt’s noch die Verhältnisskala. Hier kann man sogar Verhältnisse zwischen den einzelnen Antwort Kategorien bilden. Man kann also Aussagen treffen wie etwas ist doppelt so groß, halb so klein, dreimal so alt oder viermal so teuer oder ähnliches. Beispiele sind die Längen Messung in Metern oder im Gegensatz zur Celsius Skala die Kelvin Temperatur Skala. Eine Verhältnisskala liegt vor, wenn der Nullpunkt der Skala mit der Abwesenheit der zu messenden Eigenschaft übereinstimmt. Nur in diesem Fall ist das Bilden von Verhältnissen zulässig.
[00:04:12.150] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Warum ist es überhaupt wichtig, dass man sich mit diesem ganzen Skalenniveau-Kram auseinandersetzt? Naja, weil bevor man seine Daten auswertet, muss man sich im Klaren darüber sein, welche Berechnungen eigentlich sinnvoll, machbar, also zulässig sind. Denn mit Zahlen kann man prinzipiell ja erst einmal alles berechnen. Aber nicht alle Berechnungen machen tatsächlich auch Sinn. Im Kontext von Wirkunganalysen von sozialen Projekten oder Programmen spielt es vor allem eine Rolle für die Mittelwert-Berechnungen. Denn mit Mittelwerten lässt sich eine große Menge von Daten, also von vielen Teilnehmenden, sehr gut zusammenfassen. Streng wissenschaftlich genommen ist es nur für metrische Daten zulässig, Mittelwerte zu bilden, also für Intervall und Verhältnis Skalen. In der Praxis werden Mittelwerte allerdings ständig auch für Ordinalskalen berechnet, also für so typische Ratingskalen zur Zufriedenheit z.B.. Und das ist auch okay, wenn die Daten bestimmte Mindestvoraussetzungen erfüllen.
[00:05:25.500] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Erstens: Die Ordinalskala muss bestmöglich die Voraussetzungen erfüllen, dass zwischen den einzelnen Antwort Kategorien die Abstände gleich bzw. zumindest sehr ähnlich sind. Das würde jetzt den Rahmen sprengen, herzuleiten, ab wann diese Voraussetzungen wirklich erfüllt ist. Aber als Faustregel kann man sich merken, dass dies meist der Fall ist, wenn man eine mindestens 5 stufige Antwortskala hat. Und bei Antwortskalen, die sowohl Zustimmung als auch Ablehnung abbilden, also zwei Pole haben, ist es außerdem wichtig, dass man einen mittleren Wert hat, der inhaltlich neutral ist. Damit hat man dann also eine Antwortskala mit einer ungeraden Anzahl von Antwort Kategorien, also z.B. 5 oder 7 stufig. Und zweitens: es braucht ein Mindestmaß an Normalverteilung der Antworten, d.h. es gibt nicht zu viele Antworten an den Extremen. Wenn man jetzt z.B. bei einer 5-stufigen Antwortskala die Situation hat, dass die eine Hälfte der Befragten mit ein 1 antwortet und die andere Hälfte der Befragten mit 5 antwortet, dann ist es überhaupt nicht sinnvoll, wenn man jetzt die Daten aller Befragten mit einem Mittelwert von 3 beschreibt.
[00:06:42.540] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Prinzipiell ist es wichtig, einen weiteren statistischen Kennwert zu berechnen: die Standardabweichung. Die gibt darüber Auskunft, wie gut mein Mittelwert die Antworten aller Befragten repräsentiert. Mittelwerte sollten daher immer zusammen mit der Standardabweichung angegeben und interpretiert werden. Unser Tipp zur Vermeidung von typischen Fehlern, die sich leicht bei quantitativen Analysen einschleichen können, ist, die Kodierungen vor allem für fehlende Werte sorgfältig zu dokumentieren und immer wieder gegen zu checken. Ja, das hilft, Fehler zu vermeiden, die z.B. aufgrund von Doppel Kodierung entstehen. Wenn also z.B. Geschlecht kodiert wird mit 0 für männlich, 1 für weiblich im Zweifel divers und es dann fehlende Werte gibt, weil manche Befragte diese Frage nicht beantwortet haben und diese fehlenden Werte auch mit 0 kodiert werden, dann kann man hinterher nicht mehr unterscheiden, ob die 0 jetzt für jemanden steht, der männlich war oder für jemanden, der die Frage nicht beantwortet hat.
[00:07:58.590] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Ein weiterer Tipp ist, dass man bei der Mittelwert-Berechnung darauf achtet, fehlende Werte wirklich auszuschließen, denn es kann schnell mal passieren, dass man fehlende Werte als Wert in die Mittelwert Berechnung mit einbezieht, z.B. wenn man eine Zufriedenheitskala hat, die von 1 bis 5 geht und man hat fehlende Werte mit einer 0 codiert und man schließt diese fehlenden Werte wenn der Mittelwert Berechnungen nicht aus. Also lässt diese Null mit einfließen, dann hat man hinterher falsche Mittelwerte. In diesem Fall wären sie jetzt geringer als sie eigentlich sind. Das lässt sich ganz gut vermeiden, indem man fehlende Werte mit sehr ungewöhnlichen Werten kodiert, die eigentlich überhaupt nicht auftreten. Also sowas wie minus neun hundert neun und neunzig oder so. Na denn dann fällt es superschnell auf, ob man jetzt einen fehlenden Wert in den Mittelwert-Berechnungen fälschlicherweise mit aufgenommen hat.
[00:09:02.850] – Dr. Franziska Pfitzner-Eden, PHINEO gAG
Bei kleineren Datensätzen, so bis zu zirka hundert Personen, hat man ganz gute Chancen, solche Fehler im Rahmen von Plausibilität-Checks zu finden. Wenn man bei der Datenanalyse Tabellenkalkulationsprogramme nutzt wie Calc, Excel oder Numbers, dann schleichen sich so eine Fehler relativ schnell mal ein. Ganz gut vermeiden hingegen lassen sie sich, wenn man spezialisierte Datenanalyse Programme nutzt, wie z.B. SPSS, Stata oder R.