Aufbau eines Bewertungssystems: der Fall des ‚Family STAR‘-Projekts

Lassen Sie uns anhand eines konkreten Falles untersuchen, was es bedeutet, ein Bewertungssystem in einem europäischen Projekt zu entwerfen und umzusetzen.

Dieser Artikel entstand im Rahmen der Zusammenarbeit unseres Leitfadens mit ASVAPP, der Vereinigung für die Entwicklung der Evaluierung und Analyse der öffentlichen Politik. Der Artikel wird von Lisa Zaquini und Francesco Tarantino herausgegeben.

Family STAR: ein Beispiel für die experimentelle Bewertung eines europäischen Projekts

Nach dem einleitenden Artikel, den wir vor einigen Monaten veröffentlicht haben und in dem wir uns mit der Frage beschäftigt haben, warum es sinnvoll ist, zu evaluieren und wie oder wann dies möglich ist, befassen wir uns heute mit der Anwendbarkeit einiger der vorgestellten Evaluierungslogiken auf einen konkreten Fall: das europäische Projekt Family STAR.

Wir werden kurz die Intervention vorstellen, den Kontext, in dem sie durchgeführt wurde, und wie ihr Bewertungssystem konzipiert und umgesetzt wurde. Anhand dieser Aktivitäten werden wir ein Beispiel für die zu treffenden Entscheidungen, die zur Verfügung stehenden Instrumente sowie die Herausforderungen und Vorteile bei der Entwicklung und Umsetzung eines Evaluierungsdesigns geben.

Das Projekt Family ST.A.R.(Family Group Conferences and Students at Risk) wurde zwischen 2016 und 2018 im Rahmen des EaSI-Programms (Beschäftigung und soziale Innovation) durchgeführt, das nun eine der Komponenten des Europäischen Sozialfonds ist. Die Aufforderung bezog sich auf die Erprobung sozialpolitischer Innovationen zur Unterstützung von Reformen im Bereich der sozialen Dienstleistungen und forderte insbesondere eine strenge Bewertung der Auswirkungen des Projekts. Das mit über 1 Mio. EUR ausgestattete Projekt hatte zum Ziel, die Wirksamkeit von Familientreffen zur Förderung des Wohlbefindens und zur Verhinderung des Schulabbruchs bei gefährdeten Schülern der Sekundarstufe zu testen.

Familientreffen (Family Reunions, FCR) sind ein Modell, das in den 1980er Jahren in Neuseeland im Bereich des Kinderschutzes entstanden ist. Es beinhaltet eine Reihe von organisierten Treffen, die der Familie (im weitesten Sinne: Kinder und Eltern, aber auch Verwandte, Freunde und Nachbarn) helfen sollen, gemeinsame Entscheidungen für die Sicherheit und das Wohlergehen des Kindes zu treffen. Dieser Ansatz wird in mehreren Bereichen angewendet. Mit Family STAR wurde DRF auf das relativ neue und bisher unerprobte Umfeld der Schule angewandt: daher ist es wichtig, seine Wirksamkeit zu testen.

Als Antwort auf diesen Aufruf wurde eine Partnerschaft die in der Lage war, eine doppelte Herausforderung anzunehmen: die Erprobung des DRF-Modells in verschiedenen Schulen als präventive Intervention gegen Unbehagen und Schulabbruch und gleichzeitig die rigorose Sammlung empirischer Beweise für dieWirksamkeit des vorgeschlagenenModells. Daher wurden Einrichtungen, die für die Bereitstellung von Bildungs- und Sozialdiensten zuständig sind, und Forschungszentren mit solider Erfahrung in der Durchführung von Experimenten und Analysen im Bildungs- und Sozialbereich einbezogen.

Family STAR wurde an fünf Standorten in Nord- und Süditalien, sowohl in Städten als auch auf dem Land, durchgeführt. An dem Experiment nahmen 55 weiterführende Schulen mit insgesamt 540 Schülern teil, die sich um ein RFP bewarben. Das Projekt erstreckte sich über drei Jahre: Das erste Jahr war der Durchführung vorbereitender Aktivitäten gewidmet (Einbeziehung der Schulen, Schulung der Mitarbeiter, Entwicklung von Datenerfassungsinstrumenten), das zweite und dritte Jahr der Durchführung der Interventionen in den Schulen sowie der Datenerfassung und -analyse.

Die Intervention als ‚Droge‘: die Wahl des kontrafaktischen Ansatzes

Das Projekt sah die Anwendung von zwei verschiedenen Evaluierungslogiken vor, der Wirkungsevaluierung und der Umsetzungsanalyse, die (wie wir sehen werden) eine komplementäre Rolle bei der Beschreibung der Projektergebnisse spielten.

Ziel der Evaluation der Auswirkungen war es, die folgende Frage zu beantworten: "Welches Wohlbefinden und welche Ergebnisse hätten die Studenten, die an den DRFs teilgenommen haben, gehabt, wenn sie nicht die Möglichkeit gehabt hätten, an den DRFs teilzunehmen?".

Er wollte daher die Auswirkungen der Intervention gemäß der kontrafaktischen Logikdie den Effekt (oder die Auswirkung) als den Unterschied zwischen den Bedingungen der Interventionsstudenten (faktische Situation) und den Bedingungen, die ohne die Intervention eingetreten wären (kontrafaktische Situation), definiert. Dies ist ein besonders strenger Ansatz, der die Herausforderung mit sich bringt, eine hypothetische Situation künstlich zu rekonstruieren: Ein und derselbe Schüler kann nicht gleichzeitig Teilnehmer (faktisch) und Nicht-Teilnehmer (kontrafaktisch) sein.

Die Lösung besteht darin, eine glaubwürdige Kontrollgruppe zu bilden, d.h. eine Gruppe von Schülern, die im Durchschnitt ähnlich sind wie die Teilnehmer der Intervention: sowohl bei den "beobachtbaren" Variablen (Alter, Geschlecht, Noten…) als auch bei den nicht beobachtbaren Variablen, d.h. Variablen, die den Verlauf und die Bedingungen am Ende des Projekts beeinflussen können, aber nicht direkt beobachtbar sind. Eine Kontrollgruppe ist glaubwürdig, wenn zwei Bedingungen erfüllt sind: eine zufällige Zuweisung (z.B. durch Auslosung) und das Vorhandensein einer großen Anzahl von Schülern, die den beiden Gruppen zugewiesen werden. Diese Methode wird in der Literatur als randomisiertes kontrolliertes Experiment (oder randomisierte kontrollierte Studie, RCT) bezeichnet und ist die gleiche Methode, die im klinischen Bereich verwendet wird, um die Wirksamkeit von Medikamenten und Protokollen zu testen.

Der ‚behandelten Gruppe‘ von Family STAR wurde die Teilnahme an der DRF vorgeschlagen, während die ‚Kontrollgruppe‘ beobachtet wurde, um die Situation zu beschreiben, in der sich die Behandelten befunden hätten, wenn sie keinen Zugang zu der Intervention gehabt hätten. Durch den Vergleich der Bedingungen der Behandelten und der Kontrollgruppe war es möglich, eine Schätzung des durchschnittlichen Effekts der Teilnahme an einer DRF auf das Wohlbefinden und mehrere andere Dimensionen von Interesse zu erhalten.

Dies ist eine strenge Methode, die zuweilen auf Widerspruch stößt, da sie eine zufällige Entscheidung darüber impliziert, wer von einer potenziell vorteilhaften Intervention profitieren wird und wer nicht. Die erhaltenen Schätzungen sind jedoch robust, d.h. nach einer kontrafaktischen Bewertung kann tatsächlich argumentiert werden, dass die beobachteten Vorteile durch die Intervention erzielt wurden und nicht das Ergebnis einer - beispielsweise spontanen - Dynamik sind.

Die Annahme eines solchen Ansatzes erforderte die Festlegung eines strengen Zeitplans für mehrere Phasen des Experiments:

die Bewerbung von Studenten, die potenziell von einer Ausschreibung profitiert haben könnten;
die Auslosung (Randomisierung) bei Verträgen und Kontrollen;
den Beginn der Aktivitäten;
die Erfassung deskriptiver Daten zu den Bedingungen des Projekteintritts und -austritts für alle beteiligten Studenten.

Für die Datenerhebung wurde beschlossen, die Schülerpopulation auf die gesamte Schulpopulation der beteiligten Institutionen auszudehnen, um die Merkmale der von den Lehrern benannten Schüler auch im Verhältnis zur Schulpopulation im Allgemeinen beschreiben zu können und jeder beteiligten Schule einen Überblick über die Bedingungen aller ihrer Schüler geben zu können.

Vom Logical Framework von Family STAR zur Analyse der Umsetzung

Gleichzeitig wurde das Design für die sogenannte Implementierungsanalyse vorbereitet. Dabei handelt es sich um eine Analyse, deren Ziel nicht so sehr die Abschätzung der Wirkung ist, sondern die Überprüfung, wie eine Intervention umgesetzt wurde: Welche Hindernisse traten bei der Umsetzung des Projekts auf? Welche Strategien wurden angewandt, um sie zu überwinden? Wurde die Intervention insgesamt wie geplant umgesetzt?

Der Ausgangspunkt für die Definition des Forschungsdesigns ist die Rekonstruktion des Logical Framework der Intervention, d.h. eine Beschreibung des Implementierungsprozesses, die alle kritischen Schritte, Herausforderungen und Gefahren für die Wirksamkeit der Intervention hervorhebt. Der logische Rahmen beschreibt dann, was geschehen sollte, und die Implementierungsanalyse prüft, ob dies tatsächlich rechtzeitig und in der beabsichtigten Weise geschehen ist.

Im Fall von Family STAR betrafen die kritischen Punkte, die während der Entwurfsphase des logischen Rahmens identifiziert wurden, das Gewicht der ‚menschlichen Variable‘ und insbesondere die Möglichkeit einer geringen Zustimmung der verschiedenen Akteure (Schulen, Familien, Lehrer) zu einem sehr innovativen Projekt- und Evaluierungsansatz: ein Risiko, das sich im Rahmen des Projekts verwirklichte und angegangen wurde (siehe nächster Abschnitt).

In Anbetracht dieser kritischen Fragen wurden die am besten geeigneten Tools für die Analyse der einzelnen Projektphasen ermittelt. Die Entwicklung dieser Tools dauerte mehrere Monate. Konkret ging es um Folgendes:

einen Fragebogen zur Schätzung der Auswirkungen, der an die Schüler ausgegeben werden soll. Hierfür wurde der papiergestützte, maschinenlesbare Modus gewählt: ein teurerer Modus, aber auch einfacher für die Schulen;
einen Zufriedenheitsfragebogen, der allen Teilnehmern an den Ausschreibungen ausgehändigt wird, ebenfalls auf Papier und maschinenlesbar;
einen Online-Fragebogen für Schulungsteilnehmer;
einen Online-Fragebogen für Lehrer, die die Klasse koordinieren;
ein Logbuch, das von Moderatoren und Sprechern auf dem Weg zusammengestellt wird;
verschiedene Strecken für Interviews und Fokusgruppen mit lokalen Projektkoordinatoren, Ausbildern, Schulleitern, Kontaktpersonen für Schulprojekte, Moderatoren und Sprechern.

Die Hauptschwierigkeit bei der Entwicklung von Datenerhebungsinstrumenten, insbesondere von Fragebögen, besteht darin, das richtige Gleichgewicht zwischen dem Umfang der Fragen und der Straffung des Instruments selbst zu finden: Einerseits liegt es im Interesse der Forscher, so viele Informationen wie möglich zu sammeln, andererseits muss man aber auch sparsam sein, um den Befragten nicht zu überfordern.

Dieser Kompromiss ist immer gültig und erforderte im Family STAR-Projekt mehrere Überlegungen: Das Forschungsteam entschied sich dafür, die Merkmale der RFs durch das Instrument des Logbuchs detaillierter zu erheben, das von den Moderatoren und Sprechern erstellt wurde, die - als Projektbetreiber - die für die Erstellung aufgewendete Zeit in der Gesamtzahl der Stunden berücksichtigen konnten, die für die Vorbereitung und Durchführung jeder RFP aufgewendet wurden.

Andererseits wurde bei den Instrumenten, die sich an Eltern und - in geringerem Maße - an Lehrer richteten, besonders darauf geachtet, dass sie leicht zu beantworten waren, sowohl inhaltlich (Vermeidung von Fragen, die dem Befragten besonders schwierige Überlegungen abverlangen) als auch hinsichtlich der Länge des Fragebogens und der für das Ausfüllen benötigten Zeit.

Verwirklichung vs. Bewertung: Gegensätzliche Bedürfnisse?

Die Konzeption des Bewertungsrahmens und die Entwicklung der Instrumente dauerten etwa ein Jahr, in dem die Durchführenden mit der Phase der Einbeziehung der Schulen begannen.

Im zweiten Projektjahr begannen die eigentliche Evaluierung und die Projektaktivitäten. Dabei stießen wir sofort auf eine geringe Beteiligung der Schulen am Projekt und die Bewerbung einer kleinen Anzahl von Schülern durch die Lehrer, was die Erreichung der Projektziele (Anzahl der Teilnehmer in der RFP- und der Kontrollgruppe) und die Aussagekraft der erreichbaren Schätzungen gefährdete.

Die Umsetzungsanalyse untersuchte die Gründe für die geringe Akzeptanz des Projekts durch Schulen und einzelne Lehrer. Die Projektaktivitäten wurden umgestaltet, durch:

eine Verlängerung der Umsetzungsphase der RdFs auf zwei Jahre und die Rekrutierung neuer Gebiete (und damit neuer Schulen), um den Teilnehmerkreis zu erweitern und die geringe Inanspruchnahme auszugleichen;
der Vorschlag an die Lehrer, "Zwillingsfälle" zu melden, d.h. Schüler, die - ausgehend von ihren Antworten auf den ersten Fragebogen - mit ähnlichen Schwierigkeiten konfrontiert zu sein schienen wie die für RFs nominierten Schüler. Sobald die Liste der Zwillingsfälle beim Forschungsteam eingegangen war, lag die Entscheidung, ob sie für ein RFP nominiert werden sollten, bei den Lehrern, vorbehaltlich der Notwendigkeit, sie in die Behandlungs- oder Kontrollgruppe aufzunehmen;
die Möglichkeit für Lehrer, Fälle anzugeben, für die ein DRF dringend erforderlich war und die daher in die Behandlungsgruppe aufgenommen wurden, ohne dass sie einer Randomisierung unterzogen wurden und somit effektiv aus der Bewertung ausschieden.

Es wurde also versucht, den Konflikt zwischen den Bedürfnissen der Schule und denen der Evaluierung zu lösen. Die Erfordernisse der Evaluation sind bei den Schulleitern nicht immer gut angekommen. Sie haben behauptet, dass sie sich verpflichtet fühlen, dem Unterricht mehr Aufmerksamkeit zu widmen als der Forschung. Diese Divergenz der Interessen ist typisch für die Welt der Evaluierung, in der gegensätzliche Anforderungen aufeinander treffen (und manchmal auch aufeinanderprallen). Der Evaluator muss daher sorgfältig abwägen, ob er dringende Forderungen an die Beteiligten stellt, ohne dabei jedoch die wissenschaftliche Strenge zu verlieren, die für die Beantwortung wissenschaftlich relevanter Fragen erforderlich ist.

Eine gründliche Kenntnis des Umfelds, in dem man tätig ist, sowie eine Phase der gemeinsamen Beteiligung und Planung tragen sicherlich dazu bei, einen angemessenen Zeitrahmen und Instrumente zu finden, die den gegensätzlichen Bedürfnissen gerecht werden können.

Relevant - wenn auch nicht immer berücksichtigt - ist der Aspekt der Zukunftsperspektiven: Während die Aufgabe des Bewerters mit der Präsentation der Ergebnisse der Analyse und der politischen Hinweise endet, haben die an der Gestaltung eines Dienstes beteiligten Akteure sicherlich weiter reichende Perspektiven und es ist sinnvoll, sie zu berücksichtigen, um sicherzustellen, dass die vorgeschlagenen Innovationen auch nach Abschluss der Forschungsaktivitäten weiterverfolgt werden können.

Lessons learned: Ergebnisse der Bewertung

Trotz der aufgetretenen Schwierigkeiten konnte die Wirkungsanalyse zeigen, dass die Intervention die von den Schülern wahrgenommene elterliche Unterstützung verbessert und ihre Konflikte mit den Lehrern verringert hat. Sie zeigte jedoch auch, dass der RoF die Selbstwirksamkeit der Schüler nicht verbesserte und sie nicht optimistischer hinsichtlich ihrer zukünftigen Bildungswege machte. Die Auswirkungen scheinen positiver zu sein, wenn die Schüler aus Familien mit höherem kulturellem Kapital stammen und wenn die Beziehung zwischen Eltern und Lehrern nicht konfliktreich ist.

Die Analyse der Umsetzung offenbarte Licht und Schatten des Umsetzungsprozesses: Es gab die bereits erwähnten Hindernisse für die vollständige Einbindung der Schulen in das Projekt, die vor allem auf fehlende Ressourcen und Skepsis gegenüber innovativen Modellen zurückzuführen waren; unter bestimmten Umständen zeigen die Daten jedoch eine allgemeine Wertschätzung für partizipative und familiäre Empowerment-Modelle durch alle Akteure. Interessante Informationen wurden auch in Bezug auf das Geschlecht und die Einbeziehung der Vaterfigur gesammelt.

Zusammenfassend lässt sich sagen, dass der kontrafaktische Ansatz, der im Rahmen des für das Family STAR-Projekt entwickelten Forschungsdesigns gewählt wurde, natürlich nicht auf alle europäischen Projekte übertragbar ist, da er spezielle Ressourcen, einen strukturierten Ansatz, eine große Anzahl potenzieller Begünstigter und die Möglichkeit, eine Kontrollgruppe mit bestimmten Merkmalen zu bilden, erfordert. Außerdem machte die konsequente Anwendung eines kontrafaktischen Ansatzes die Überwindung von Hindernissen und die Umgestaltung der Projektaktivitäten erforderlich.

Durch die Kombination von zwei verschiedenen Bewertungsansätzen (Bewertung der Auswirkungen und Analyse der Umsetzung) konnte das Projekt jedoch solideNachweise sowohl für seine Auswirkungen als auch für die aktivierten Prozesse erbringen. Die Ergebnisse der Evaluierung ermöglichten präzise Schlussfolgerungen in Bezug auf die Wirksamkeit des getesteten Ansatzes und können als Richtschnur für die Umsetzung und schrittweise Verbesserung künftiger Interventionen dienen.

Handbuch

Programme

Einblicke

Über uns

Kontaktieren Sie uns

Aufbau eines Bewertungssystems: der Fall des ‚Family STAR‘-Projekts

Family STAR: ein Beispiel für die experimentelle Bewertung eines europäischen Projekts

Die Intervention als ‚Droge‘: die Wahl des kontrafaktischen Ansatzes

Vom Logical Framework von Family STAR zur Analyse der Umsetzung

Verwirklichung vs. Bewertung: Gegensätzliche Bedürfnisse?

Lessons learned: Ergebnisse der Bewertung

DAS KÖNNTE SIE INTERESSIEREN

Alle Artikel

Kaskaden-Finanzierung: Agile Aufrufe für europäische Gelder

Wenn Sie in Rom sind, tun Sie, was die Römer tun: eine internationale Reise

Abonnieren Sie den monatlichen Newsletter

Aufbau eines Bewertungssystems: der Fall des ‚Family STAR‘-Projekts

Family STAR: ein Beispiel für die experimentelle Bewertung eines europäischen Projekts

Die Intervention als ‚Droge‘: die Wahl des kontrafaktischen Ansatzes

Vom Logical Framework von Family STAR zur Analyse der Umsetzung

Verwirklichung vs. Bewertung: Gegensätzliche Bedürfnisse?

Lessons learned: Ergebnisse der Bewertung

DAS KÖNNTE SIE INTERESSIEREN

Alle Artikel

Kaskaden-Finanzierung: Agile Aufrufe für europäische Gelder

Wenn Sie in Rom sind, tun Sie, was die Römer tun: eine internationale Reise

Abonnieren Sie den monatlichen Newsletter

Il tuo feedback conta

Ihr Feedback ist wichtig