打印页面

首页 > 新闻聚焦社会热点 重磅 | 公益项目为什么要做“评估”?怎样评估?

重磅 | 公益项目为什么要做“评估”?怎样评估?

各位公益伙伴,首先非常感谢您打开此文!

项目评估是助力项目质量提升的重要工具,也是对外呈现项目成效和透明度的主要方法之一,但是因其复杂、成本高和模式多等特点,使得公益伙伴在选择评估方法和应用评估结果上存在相当的挑战。

笔者在过往几年中,有幸获得了多次实践公益项目评估和相关培训的机会,过程中得到了许多公益伙伴的支持和帮助,也深感应用项目评估,犹如购置衣物,只有明确了自己的需求(例如穿衣场合、体型身材、颜色风格、预算范围等),才能找到适合自己的店家或者制衣师,最终买到需要的衣服。不过,了解自己并不易,同样的,了解自己项目的需求也是很难的。

基于这个原因,笔者首先要向大家重点介绍“因果链”这一工具,用于详细分析自己的项目,以明确项目干预内容和成效,厘清干预内容和成效间的逻辑关系,同时找到项目的 重点和可能的薄弱环节。这些工作,其实也是自评估的一部分,同时有助于项目方找到合适的评估合作伙伴,让评估发挥应有的功效。

因果链工具基本原理非常简单,也非常容易入门和上手。在项目设计阶段,它可以全景展现项目整体图景,包括受益人群的需求、项目需要的资源投入、干预路径和预期效果等;从逻辑上检验项目的可行性和有效性;也为评估设计指明方向。在项目进程中,因果链可以帮助项目方明确需要监测的环节,并帮助实时发现问题和分析问题出现的原因。

在项目结束或者评估完成后,因果链也是非常好的复盘工具。项目利益相关方可以将实际发生的因果链和预期的因果链作对比,看到两者的相同和不同点,从而帮助分析项目起效或者无效的原因。

有了因果链分析,项目的评估需求会相对明确,由此评估目标甚至方案也会相对容易设定。在第四部分,笔者结合因果链,介绍了因果关系验证、测量、抽样和数据收集的方法,供大家制定评估方案时参考。

友情提示:本文干货汇聚,文字较多,建议收藏后阅读。

01

影响力规模化场景下,为什么要做“评估”?

“项目评估非常重要”,这已经是公益行业的共识。评估可以监测项目执行、反映项目成效;设计评估和讨论评估结果的过程则可以帮助厘清项目逻辑。因而,评估,对内可以帮助项目方合理定位项目,提升项目质量;对外则是对利益相关方(包括受益人、捐赠人、媒体、政府、公众等)的最好反馈,提升项目透明度;最终助力项目和机构的可持续发展。

规模化场景下,项目评估更加有必要。

第一,影响力(impact)规模化的前提条件之一是“项目是否有影响力”,即项目成效,评估是这一问题最好的回答者。

第二,规模化有不同的路径,可能带来执行条件的变化。比如,项目操作方的变化——由规模化之前的自己执行变为规模化之后的在地合作方执行、干预场景的变化——由规模化之前的社区(或者其他)变为规模化之后的学校(或者其他);引入评估可以来检验执行条件变化后,原先的项目设计在逻辑上是否依然成立、项目是否依然可行、项目执行质量和成效是否会有影响等等重要问题。

02

为什么是“自评估”? 

项目评估非常重要,但是很多机构觉得相对于评估的投入,其产出并不能体现出评估应有的作用,这又是为什么呢?笔者认为可能有两个层面的困难。

第一个层面是方法模式上的。评估的方法模式多种多样,例如发展性评估、总结性评估、对标评估、社会投资回报评估、成本成效评估、需求评估、参与式评估等等;不同的评估模式会采用不同的方法,也会有不同的成本,可能基于的价值观也不同,可以解决的问题也会不同,更勿论评估是否能起到作用还取决于具体的评估方案和执行的质量。评估机构也非常多,各个机构擅长的评估模式也各异。纷繁的模式以及众多的评估机构,给项目方的选择带来了幸福的烦恼;选择不当的话,评估就可能无法达到委托方的预期。

第二个层面则是信息不对称。通常情况下,评估由第三方来完成,这样做虽然提升了评估的公信力,但代价是增加了项目方和评估方之间沟通和磨合的成本,而且由于立足点不一致,要求评估方充分理解并在评估中反应项目方的诉求往往是很困难的。

如何应对以上的挑战呢?首先,作者并不觉得这些挑战可以被彻底解决,尤其第三方和项目方的信息不对称是天然的。打个不完全恰当的比方,这就像是去定制衣服,消费者相对于设计师,会更清楚自己的需求;设计师相对消费者,有更专业的制衣技巧,对于风格的整体把握也会更好,虽然TA会有一定的方法来了解消费者的需求(比如测量体型、询问穿衣场合等),但是有些信息(比如消费者对于衣服风格的偏好)不能完全通过测量准确得到;甚至消费者自己都不完全了解自己的需求,设计者更无从获得相关信息,因而可能给不了最佳的设计。公益在很多层面上要比制衣复杂的多,仅依赖第三方,完成一个符合项目方需求的评估是非常有难度的。

如果要部分解决这个挑战,“消费者”——公益项目方——至少需要更多的了解自己,才可以给“设计师”——评估方——更详尽更准确的信息,让“设计师”可以真正做到“量身定制”;同时也要在一定程度上了解“制衣”——评估——可以用来选择符合自己要求的“设计师”——评估方——或者“设计方案”——评估方案。

这份指南将基于以上两个目的,首先推荐“因果链分析”这一工具,辅助项目方来了解和分析自己的项目,进而确定自己的评估需求;其次简略介绍基于“因果链分析”的评估方法,让项目方对于评估方案如何制定和执行有一定的概念,甚至可以自己进行一些简便的监测评估;从而自主提升项目质量。如果做到这些,笔者认为这就是一个非常好的自评估了。

03

因果链分析

3.1

基本元素

因果链,顾名思义,包含三个部分——“原因”“结果”和“链条”。“原因”和“结果”都是行动,以方框和里面的文字来表示;链条则用箭头表示,箭头发出的框为“因”,指向的框为“果”。

咱们用一个例子来具体说明。假设有个影响力规模化中的儿童阅读项目,致力于通过招募志愿者给孩子们上阅读课,培养孩子的阅读习惯,促进孩子的健康成长。图1的因果链演示了这个项目,其中“机构招募志愿者”是“因”,它的“果”是“志愿者给孩子上阅读课”,“孩子养成了阅读习惯”又是“志愿者给孩子上阅读课”的“果”,“孩子健康成长”则是“孩子养成了阅读习惯”的“果”,这些因果关系则由连接方框的箭头表示。这些就组成了这个项目的因果链。

在因果链中,一个框里只应包含一个动作。比如不要把“机构招募志愿者”和“志愿者给孩子上阅读课”组合为“机构招募志愿者给孩子上阅读课”,或者把“孩子养成了阅读习惯”和“孩子健康成长”,合并为“孩子养成了阅读习惯,健康成长”;这样容易默认其中的因果关系100%成立,造成类似于“机构招募了志愿者,志愿者就能给孩子上阅读课”“孩子养成了阅读习惯,就会健康成长”这样的误解。

微信图片_20200914105915

▲ 因果链示意——基本要求(图1)

其次,因果链的每个因果环节都应尽可能包含“主谓宾”,且不要用被动语态。这样才能知道谁是动作的发出者,谁是动作的接受者,从而明确谁对这个动作有控制权,谁是被影响方。例如,“项目方收到捐款”“项目方收到月捐人捐款”“月捐人给项目方捐款”,这三种都是对于同一件事情的表述。第一种少了宾语,信息有缺失;第二种描述给人的感觉是项目方对于捐赠有控制权(当然如果项目方确实有控制权,是可以这样表述的);第三种描述相对是最好的。如果动作没有宾语或者宾语不是某个“人群”,例如,“孩子的阅读行为改变了”“孩子掌握了阅读技巧”等,这样的动作往往就是该模块受益群体的改变,即某个环节、模块或者整个项目的成效。

3.2

应用要领

这仅仅是因果链的基本要求,但已经可以让我们看到,项目的利益相关方大概都有谁,分别做了什么事情,又会对谁产生什么样的影响。不过,要让因果链工具充分发挥分析项目、了解评估需求的作用,我们还需要进一步做到以下这几点。

第一,项目有关的静态条件可以不放入因果链。静态条件是指那些在一段较长的时间内,变化可能性很低的环节;可以是来自项目外部的条件,比如政策和法律法规,例如“政策允许公募基金会向公众募款”“本机构在完成社会组织注册”等;也可以是项目内部的事情,比如“项目资金到位”“阅读课获得了当地教育局或者学校的准许”“机构安排相关工作人员负责本项目”“项目志愿者招募”,如果这些事情已经确定,不再有变数,那么它们就是静态条件。这些环节既然没有变化的可能,那么将其纳入分析也就没那么必要了,除非需要分析这些静态条件一旦出现变化,对于项目的影响。

第二,因果链应从被分析项目的第一个非静态条件环节开始,且至少以受益群体的预期变化作为结束。例如,假设图1的项目其实是从筹款开始,而且“筹款结果如何”依然有变数,那么项目的第一个环节就应该是“项目方在XX平台向公众筹款”,最后一个环节是受益群体的预期改变——“孩子健康成长”,那么因果链就应该以“项目方在XX平台向公众筹款”开始,以“孩子健康成长结束”。如果“项目方在XX平台向公众筹款”已经完成,即该环节已经是静态条件,那么就需要再看下一个环节是不是静态条件。假设下一个环节是“机构招募志愿者”,如果这一步是非静态条件,那因果链就应该以此开始,如果依然是静态条件,那就查看再接下去的一步。

微信图片_20200914110455

▲  因果链示意——覆盖项目所有环节(图2)

最后,也是最重要的,因果链拆解得越细致越好,初始因果链中缺失的环节应该加上,而含混的、重要的或者是待验证的环节,则需要细细地拆解。以下,笔者还是用阅读课项目作为例子,详细地给大家解释下这一点。

首先,因果链需要尽可能地涵盖项目所有的环节,尤其是重要环节。假设,阅读课项目中,招募来的志愿者是必须经过项目方培训后才能授课的,那么“机构培训志愿者”作为一个重要环节,就应该出现在因果链中的。如果缺失,那么在后续分析阅读课程成效的时候,就可能忽略培训质量对于阅读课质量可能的影响。图2演示了更新后的项目因果链。那如何保证项目的所有环节不遗漏呢,一个小方法是项目方可以将项目的所有流程以“流水账”的方式记录下来,再将它们用因果链的形式呈现,最后再做一遍核对。

大概达到“不遗漏”的要求之后,我们再来检查重点环节,看看能不能做进一步的拆分。例如,“志愿者给孩子上阅读课”是这个项目的核心干预环节。这个环节,根据项目的设计,可以进一步拆分为三个更小的环节:“志愿者给孩子讲解和演示阅读需要的环境”“志愿者给孩子讲解和演示阅读的理想时长和频率”和“志愿者给孩子讲解做阅读笔记的方法”。接下去,我们需要分析,这三个小环节之间是不是存在因果关系。如果存在,比如需要先讲解阅读环境,才能继续说明阅读时长和频率,最后才能教授做阅读笔记的方法,那么这三个小环节应该以“串联电路”的形式呈现。如果不存在,即三个点的认识之间不存在谁依赖谁的关系;那么,它们应该以“并联电路”的形式呈现,详见下图。

31

▲ “串联”示意(图3.1)

32

▲ “并联”示意(图3.2)

这样的拆解,对于评估会有很直接的帮助。因为,阅读课干预的内容非常明确了,我们可以据此来理解下一个环节中的“阅读习惯”是什么,看看逻辑上是不是项目目标中的“阅读习惯”是自洽的。如果不自洽,那么就需要重新考虑修改干预内容或者项目目标。如果自洽,那么执行监测或者成效评估的指标就可以根据干预内容,从“阅读环境”“阅读时长和频率”以及“阅读笔记”三个维度来设置(第4部分笔者会进一步阐释因果链对于指标设计的帮助)。

如果需要,这三个小环节甚至还可以做进一步的拆解。以“志愿者给孩子讲解和演示阅读需要的环境”为例,假如按照流程,志愿者需要先设置三种不同的阅读场景,然后邀请小朋友体验在不同场景下阅读的感觉,最后请小朋友讨论不同阅读场景的优劣。这部分的因果链就可以进一步拆解为下图。

4

▲ 因果链示意——阅读课进一步拆解(图4)

在这样的情况下,阅读执行监测的指标,乃至步骤,都会更加明晰。例如,根据因果链,“志愿者请小朋友讨论不同阅读场景的优劣”是链条的最后一个环节,而且组织小朋友讨论是非常有挑战的一件事,所以“请小朋友讨论”可以认为是这个模块的核心环节。如果需要对模块做评估,至少要关注这个环节,进行有针对性地设计。

除了阅读课,“志愿者培训”也是非常重要的环节,同样需要做进一步拆分。拆分的方法是一样的——还原项目设计或者执行的流程。这里,我们不再详述,直接上图。值得注意的是,志愿者培训因果链的最后一个框,它的宾语并非某个人群,而是像之前提到的一样,这个框是这个模块受益群体的改变,即模块成效,而这个培训模块的内容就是前三个框。这条因果链,对于评估的启示,也就很直接了。

5

▲ 因果链示意——志愿者培训进一步拆解(图5)

其他的环节,看分析的需要,也可以进一步拆分。比如,筹款环节——“项目方在XX平台向公众筹款”,如果是非静态条件或者就是想要分析静态环节变动的可能影响;咱们就可以把“项目方向XX平台提交筹款申请”“XX平台审核筹款申请”“XX平台上线项目方的筹款”“公众向项目捐款”“平台向项目转账”等环节,一一放入因果链,替代“项目方在XX平台向公众筹款”这个相对笼统的框。

最后,回顾下因果链分析的基本要领,总结下来就是以下几句话:动作要有主谓宾,一个动作一个框,箭头连接“因”和“果”,静态条件不用加,分清串联与并联,关键环节细细拆。其中,最重要的就是“能拆多细拆多细”。文中的阅读课例子中,甚至可以把孩子的听讲理解过程都放进项目因果链中。“志愿者给孩子讲解阅读需要的环境”->“孩子听到了志愿者的讲解”->“孩子理解了志愿者的讲解”;帮助伙伴理解在干预之外,会有其他可能的因素,干扰项目成效的发生。比如“没有给志愿者配话筒”可能让孩子听不清楚讲解,“阅读课在午后开始”可能让孩子因为困而理解不了志愿者的讲解,“志愿者用比较艰深的词汇来讲解”同样可能让孩子理解不了等等。

3.3

规模化场景下的因果链分析

以下,我们来详解下规模化过程下,公益项目有可能发生的变化,以及这样的变化,会如何反应到在因果链分析中。

第一是受益人群数量上的变化。这样的变化本身不会对因果链有影响,但是受益人群变多会带来评估难度以及成本的增加,这就凸显了因果链分析的重要性,因为明晰的因果链可以让项目方明确评估需求,让评估目标和相应的方案有的放矢,避免不必要的监测评估花费。

6

▲ 因果链示意——规模化过程中的人群变化(图6)

第二是受益人群特点上的变化。我们国家幅员辽阔,各地方环境有一定的差异。项目在落地到另一个区域时,原本的目标人群可能会产生变化。假设例子中的阅读课,原本的定位是服务城市困境儿童的,其中大部分群体是流动儿童。当这个项目推广到其他地方,比如中西部的贫困地区,可能当地的困境儿童主要是留守儿童。这样的变化就可以明确标注到因果链中,如图6的红字部分所示。留守儿童和流动儿童虽然都可能是困境儿童,但是两者间的一些区别,可能会影响到干预的成效。例如,阅读习惯的养成一方面需要阅读知识和态度的建立,但是同时也需要孩子的环境中有相应的阅读资源,可以让孩子来实践和养成阅读习惯。如果流动儿童和留守儿童可获取的阅读资源不同,那么同样的执行也会可能有不同的项目成效。此外,流动儿童通常由父母自己监护,留守儿童则可能是由祖父母监护,不同的家庭构成,也可能会影响到项目成效。

第三是干预场景的变化。依然以阅读课为例,并延续上一段中的假设。因为项目本来是给城市里的流动儿童提供服务的,项目方招募的志愿者——大多是大学生——是在学期中到流动儿童相对集中的学校里上阅读课的。项目推广到中西部贫困地区时,可能因为大学生志愿者不容易在学期中来当地上课,所以项目会以暑期夏令营的方式进行,项目的干预场景也就从学校变成了社区(如下图)。

7

▲ 因果链示意——规模化过程中的干预场景变化(图7)

社区场景和学校场景可能会有以下的不同。第一,社区里的孩子,比如夏令营,有可能是混龄班。小朋友的年龄不同,意味着认知水平的不同,这就增加了教授内容和进度的挑战;此外,课程原本设计是有讨论环节的,如果大小孩子混班,课程讨论很有可能就会被大孩子主导,那么设计上也需要做相应的调整。第二,社区场景下,上课的时间和频率可能不如学校有保证。学校往往会根据平日上课的安排,给项目方一个固定的时长和频率来上课,同时小朋友因为上学的关系,请假率一般也会比较低。社区相对就不存在这样的优势。当然社区也有社区的优势,如果安排得当,师生比相较学校会理想一些。以上都会影响阅读课的执行和干预效果,需要在规模化的过程中注意。

第四是因果链环节的增减。不同的项目可能会有不同的路径,其中一些路径需要在地公益伙伴机构的支持,这可能会带来因果链环节的有必要的增加。比如,规模化之前,阅读课的志愿者培训是由项目方来进行的。规模化之后,考虑到大量志愿者是来自本地的,考虑到这些志愿者要到项目方所在地或者项目方到志愿者所在地都会产生较高的旅行成本,项目方可能会先培训在地公益机构的伙伴,再由在地伙伴招募和培训本地志愿者。因果链的变化如图8红字部分所示。

培训由规模化之前的一次变成了规模化之后的两次,同时根据因果链,志愿者培训的质量不再仅取决于机构了,还取决于在地合作方。一般情况下,培训次数的增加会导致信息在传递过程中一定程度的丢失,这就提醒项目方和在地伙伴机构要重视培训模块的监测。此外,招募志愿者现在由本地公益伙伴来负责了,因为志愿者招募可能会影响培训的效果,进而影响阅读课的执行;所以项目方需要向本地合作伙伴明确招募标准。如果招募标准目前不够明确,那么也可以通过进一步拆解“合作方招募志愿者”或者之前的“机构招募志愿者”,来帮助分析。

8

▲ 因果链示意——规模化导致的因果链环节增减(图8)

3.4

因果链分析小结

以上,我们介绍了解因果链分析的基本方法以及其在规模化场景下的基本应用。如前所述,因果链是一种非常“朴素”的工具,基本元素就是“主谓宾结构的行动语句”和表示这些行动之间因果关系的“箭头”。使用方法也非常“愚笨”,就是用以上的基本元素将项目的所有行动连接起来,要领也很简单——“需要分析的行动拆解的越细越好,不需要分析的行动(比如静态条件)甚至都不用列进去”。

因果链分析可以帮助项目方清楚地了解自己项目的问题和需求。首先,如果某部分的因果链描述不清楚,那么这部分的项目设计或者执行可能是含混的。其次,因果链整理清楚后,甚至在整理的过程中,就可以从逻辑上检验干预是否可以产生预期的成效以及干预在现实中的可行性如何。最后,因果链分析可以让项目方明确项目的边界在哪里,也就是哪些部分相对更多地取决于项目自己的努力。

例如,阅读课的例子中,项目因果链由“机构招募志愿者”开始,以“孩子健康成长”结尾。其中机构为主语的部分,其质量是取决于机构的努力,而其他的部分,尤其是那些离“机构为主语的环节”比较远的环节,机构其实比较难影响到的。比如,相对于“儿童养成了阅读习惯”,“儿童健康成长”是更远的一步,机构的影响是比较有限的;所以,从这个角度看,“儿童养成阅读习惯”是更好的衡量项目成效的标准,而非“儿童健康成长”。此外,项目的干预也主要是由“志愿者”完成,机构如果要保障项目质量,是需要加强机构部分的努力——招募和培训志愿者——到阅读课执行质量的转化率的。

综上,完成因果链分析后,项目方一般会对自己的项目有了进一步的了解,可以据此清晰地陈述自己的项目,也会对评估需求有明确的定位,甚至可以据此进一步指导评估方案的设定。

04

从因果链分析到评估目标

有了清晰细致的项目因果链,加上确定的预算范围,再来设定评估目标基本就水到渠成了。

公益项目的评估目标,一般可以考虑三个方向:①验证项目中某个环节或者模块的执行质量;②验证项目中某个环节或者模块的成效;③验证整个项目的成效。

其中,“项目成效如何”,往往是项目评估的终极目标,但是对于自评估这不一定是最好的目标。原因有三:①验证整个项目的成效,可能是由项目方外的其他利益相关方提出的,那么相对于第三方评估,自评估的公信力可能达不到要求;②在规模化场景下,验证整个项目的成效对于评估方法(主要是实验设计和样本量)的要求会比较高,对应的成本也就比较高了,自评估的定位决定其一般不会有足够的预算来支撑这样的评估;③公益项目一般比较复杂,规模化条件下更是如此,如果事先没有厘清因果链也没有做过执行质量的评估,那么一旦评估结果不佳,往往很难找到症结,更无从改进项目。由此,设定自评估目标一般还是考虑前两个方向为好。

首先,验证项目中某个环节或者模块的执行质量。这里的“某个”环节或者模块往往就是通过因果链分析确定的“核心”或者“易错”环节或者模块。例如,文中的阅读课项目,通过因果链分析,最核心的部分是“志愿者给孩子上阅读课”的模块(含三个环节),其次是志愿者培训(含三个环节),“招募志愿者”也相对比较重要。如果预算允许,三个环节的执行质量就都看。如果预算不允许,那就根据重要程度来,只能选一项的话,就优先阅读课。

其次,验证某个环节的成效。同样的,这里“某个”环节也是项目的关键环节。例如,阅读课的例子中,依然是“阅读课”、“培训志愿者”和“招募志愿者”三个环节。不过,和执行质量关注环节本身不同,成效关注的是环节接收者(也就是宾语)的改变。例如,同样是阅读课,执行质量评估看的是课程有没有按照设计要求上;而成效评估看的是孩子的变化,根据因果链,也就是孩子有没有养成阅读习惯。同样是志愿者培训,执行质量评估看的是培训有没有按照设计进行;而根据因果链,成效评估看的是志愿者有没有掌握儿童阅读的意义和方法。以上也再次说明,因果链拆解的越细致、质量越高,评估目标设定就会越容易。

05

评估目标验证简介

自评估目标设定完成,下一步就是检验了。笔者经常采用的检验方法是基于社会科学实证研究方法体系的。鉴于本文目的,笔者会简要介绍这个方法体系的框架以及基本的应用原则,希望可以帮助项目伙伴完成简单评估目标的自我验证、复杂评估目标的方案预设或者评估方寻找。不管是简单的还是复杂的评估目标,这个验证方法都由以下几个维度构成:因果关系验证、抽样、测量和数据收集。

5.1

因果关系验证

首先,我们得明确评估目标里有没有包含因果关系。一般情况下,如果评估目标是验证整个项目的成效或者项目某个环节的成效,例如“XX项目有没有提高XX人群的XX”、“XX环节有没有增加XX环节的XX效果”这样的评估目标,肯定是包含因果关系的。或者从因果链的视角,如果评估目标涉及两个及以上“串联”关系的因果链环节,那么它一般是包含因果关系的。举文中的例子,“阅读课有没有帮助孩子养成阅读习惯”,这个评估目标就涉及了“阅读课”和“孩子的阅读习惯”两个环节,所以是包含因果关系的。

如果评估目标包含因果关系,那么严格意义上讲,验证因果关系应该是检验评估目标的一部分,也就是说,需要检验因果关系三条件——时间顺序、相关性和无混淆因子——是否成立。时间顺序是指待验证的“因”必须发生在“果”之前。相关性是指待验证的“因”必须和“果”相关联,即“因”变“果”也变、“因”不变“果”也不变。无混淆因子是指待验证的“因”和“果”之间的相关性不是由第三个因素造成的;例如,“穿短袖”和“吃冰激凌”之间是有相关性的(穿短袖的行为多了,吃冰激凌的行为也多了;反之亦然),但是这个相关性可能并非因果关系,因为可能是气温同时造成了“穿短袖”和“吃冰激凌”的变化。

这里,笔者再用评估目标——“阅读课有没有帮助孩子养成阅读习惯”——进一步解释下因果三条件。在这个目标中,“因”是“阅读课”,“果”是“孩子养成阅读习惯”。要验证这两者之间的关系,首先,需要证明“阅读课”发生在“孩子养成阅读习惯”之前;其次,要证明如果“阅读课”发生了,“孩子的阅读习惯”就养成了,如果阅读课没发生,“孩子的阅读习惯”就不会养成或者养成程度不如阅读课发生状态下的程度;最后,需要证明“阅读课”和“孩子的阅读习惯”的变化不是因为其他的某个或者某几个共同的“因”造成。可能的“因”比如可以是当地家长重视阅读,所以家长一方面积极促成开“阅读课”,同时又主动影响孩子“养成阅读习惯”。

要证明以上的三点,看起来是挺复杂,做起来也是。实践中,最好的方法就是随机控制实验(真实验设计),因为它针对性的设计,可以较严格地验证因果关系三要素。第一,它通常要求在干预前后都对干预对象实施测量——前后测,以验证变化是否发生在干预后,即“前因后果”是否成立。第二,通过随机分配样本,创造出统计学意义上相同的两个甚至更多的组,一组给予干预——干预组(也可以是给予多个组不同条件的干预),另一组不给予任何干预——控制组;因为这些组之间的不同仅为“是否给予干预”,那么几组间在干预后的差别就只能归因于“是否给予干预”——这唯一的“不同”了。第三,它通过前后测对比,来看干预和变化是否有相关性;即对于干预组,干预发生,变化是否也发生,对于控制组,干预不发生,变化是否也不发生。

因为随机控制实验需要随机分配干预对象到不同的组,所以可能会有伦理或者可行性方面的风险。伦理风险是:“干预”——通常是对干预对象的帮助——“给与不给”是不是可以“随机”决定;比如说“孩子可不可以上阅读课”是不是应该被随机决定。可行性的问题主要是,因为很多评估开始晚于项目启动,所以“给予哪些人干预”已经确定了,没法再用“随机”的方式改变他们的干预条件。如果随机控制实验有伦理风险或者不可行,我们可以“退而求其次”,选择“准实验设计”。准实验设计和随机控制实验最大的区别是:样本不是被随机分配到不同干预条件组别或者控制组,而是将已经在干预中的受益群体根据干预条件“划入”不同的干预组,再另找不在干预中的潜在受益群体作为对照;从而降低伦理风险,增加可行性。它的缺点也很明显,因为没有随机分配,所以干预组和其他组之间不能保证完全相同,所以不能将组之间的前后测的不同严格归因于“干预”。

如果自评估目标只涉及一个环节,那它一般不包含因果关系。例如,“阅读课执行是否到位”、“筹款量有否达标”等目标,都只包含单个环节——“阅读课”或者“筹款”。这样的评估目标就不需要使用随机控制实验或者准实验设计,即不用将样本就干预条件进行分组,一般也不用做前后测,除非评估需要观测指标随时间的变化。

5.2

抽 样

因为规模化场景下的项目受益人群数量一般较大,所以通常需要抽样。抽样的目的是“用数量相对少的样本来代表数量相对大的总体”,所以抽样并不追求大样本量,而是“样本是否可以代表总体”。样本的代表性主要取决于两个因素,第一是抽样策略,第二是样本量。

先说抽样策略,最好的抽样方式是概率抽样,通俗点讲就是用随机方式来抽样。其基本的操作原则是:首先,获得所有目标群体的名单,比如评估之前举例的阅读项目,那就需要获得所有参与这个项目的孩子的名单;其次,用随机方式抽取一部分孩子作为样本,例如,可以先将所有孩子排序,然后用电脑程序或者掷骰子等方法生成随机数,抽取随机数对应序号的孩子进入到样本。如果获取所有目标群体的名单有困难,可以先随机抽取若干个项目点(比如,学校、社区、甚至城市),然后再获取被抽取的项目点的所有参与群体的名单,最后再随机抽个体,进入到样本。

因为在概率抽样中,每个个体都有机会(往往是相同的机会)被抽中,所以在样本量相同的情况下,更可能获得代表性高的样本。此外,概率抽样中,个体被抽中的概率是可以准确量化的,所以可以根据统计学方法,估算检验评估目标所需要的样本量。

如果所有或者单个项目点的名单都没法获取,或者即便有所有人的名单,但并不是所有人都可以参与数据收集,那就只能用非概率抽样了。非概率抽样虽然不能保证每个个体都有机会被抽中,但是好处是方便易操作、成本也比较低。以非概率抽样中最常用的方便抽样为例,其关注的是样本的数据是不是容易被研究者获取。在上述的阅读项目评估中,如果采用方便抽样策略,评估者通常会直接选取机构附近的项目点或者和机构合作比较好的项目点,并以正在参与的儿童为样本。

样本量是影响代表性的另一个因素,而且也很大程度上决定了数据收集乃至整个项目评估的成本。如果样本量过低,即便是用了概率抽样,代表性依然会比较低。那么,如何来确定样本量呢?有几个点可以供大家参考。第一,根据自评估的预算:大家可以自己测算下(比如通过数据试收集)收集单个数据的成本,从而知道评估预算可以负担多大的样本量。第二,根据统计学的要求:需要做的定量分析越复杂,样本量要求就越高;一般情况下,三位数的样本量比较保险。第三,根据总体的数量:如果项目覆盖的人群已经上千,甚至上万了,为了样本的代表性,可以考虑以某个比例来抽样,比如1%或者10%,总量也最好不要低于三位数。

5.3

测量和数据收集

提到评估,通常大家觉得最困难的就是指标怎么设和怎么测量,这其实说的就是测量和数据收集的重要性和难度。不过,这部分的重要性和难度经常被过分强调了,指标毕竟只是评估方法的一部分,是为评估目标服务的,并且需要和因果验证、抽样来配合,才能共同组成一项好的项目评估。

再者,评估指标的设定也没有想象的那么难。如果我们可以把因果链拆解的细致而且清晰,评估指标的设定就会相对容易很多。以下还是以阅读课来举例。

当评估目标是“阅读课的执行质量如何”时,根据因果链,阅读课的内容包含了“老师有没有讲清楚‘阅读环境’、‘阅读时长和频率’和‘阅读笔记’”三方面(参见图3)。如果这三方面是“并联”,那么评估指标就围绕这三个维度来设定。如果这三方面是“串联”,因为只有因果链中的前置环节做好了,后置环节才可能有质量,那么评估指标甚至可以只关注最后一个环节的内容——“阅读笔记”。如果因果链被拆的更细,比如根据图4,那评估指标也可以按照更细分的内容来设定,关注“志愿者设置三种不同的阅读场景”、“志愿者邀请小朋友体验在不同场景下阅读”和“志愿者请小朋友讨论不同阅读场景的优劣”这三个维度。因为是“串联”,指标也可以仅看“志愿者请小朋友讨论不同阅读场景的优劣”。指标确定后,数据收集的方式,则可以是评估人员现场观察为课程打分、老师自评课程、学生评分、或者前述两者甚至三者相结合的方式。

当评估目标是“阅读课是否帮助孩子养成阅读习惯”时,因为因果链已经说明阅读课的干预点是在“阅读环境”、“阅读时长和频率”和“阅读笔记”三个方面(参见图3),如果项目的因果链是逻辑自洽的,那么项目“定义”的阅读习惯就应该是这三个维度,自然评估指标也应该依据这三个维度来设定。只是评估对象变成了孩子,不再是上一个段落中的阅读课本身;所以指标就可以是“孩子会不会选择阅读环境、孩子会不会控制自己的阅读时长和频率、孩子会不会做阅读笔记”。这些数据的收集方式可以是家长或者评估人员观察记录孩子在家的阅读行为、评估人员观察记录孩子在项目点的阅读行为、孩子自汇报阅读行为、或者以上方式的结合。

当评估目标是“志愿者培训的执行质量如何”或者“志愿者培训是否可以提高阅读课的质量”时,指标的设定同样可以依据那部分的因果链(参见图5)。此处不再赘述。

以上提到的“自汇报”和“观察”,是两种主要的数据收集路径,各有利弊。“自汇报”更适用于收集态度、观点等偏主观的、或者过往行为等无法直接观察到的数据,其准确性比较容易受样本个体参与数据收集的意愿、和数据收集者的关系、记忆力、情绪等主观因素的影响。“观察”则在收集目标人群当下的、比较偏客观的数据上有优势,但是因为观察需要在自然条件或者“实验室”条件下进行,所以单个数据的收集成本往往相对比较高。大家需要按照被收集数据的特性和自评估的预算,来合理的选择数据收集的方法。

06

结语

以上,笔者介绍了项目方自评估的一种方法,思路是先通过因果链分析了解自己的项目和项目需求,然后根据项目需求来确定评估目标和相应的评估方案,这样会让项目评估更好地贴近项目自身,助力项目质量的提升。

为了提高文章的可读性和普适性,笔者尽可能地使用了非学术性语言,这可能会牺牲一定的严谨性。此外,公益项目的类型和领域也很多样,篇幅所限,拙文的例子仅仅覆盖了一个很小的公益领域和项目类型,无法穷尽所有,评估目标验证部分也仅能就评估目的、框架和方法提供一些原则性的介绍,无法深入到更多细节中。以上也恳请大家多多谅解。

过去的一年里,我们有幸和南都公益基金会以及中国好公益平台上的八家机构深度合作,历时半年,从因果链分析开始,到产出各自的自评估方案,最终形成了8个案例。相较于拙文,这些案例基于真实的公益机构和他们的品牌项目,涵盖了更广泛的项目类型和公益领域,也提供了更多的过程细节,由此会更准确地反馈自评估——尤其是因果链工具——的优缺点。大家可以进一步阅读这些案例,相信会有更大的收获。

最后,笔者非常感谢中国好公益平台、平台公益机构伙伴、南都公益基金会和招商局慈善基金会,一年多的合作,收获良多!就拙文和案例,也请各位读者不吝赐教!也非常期待后续能有机会,和更多的公益伙伴就评估做更深入的交流!

 -END-

文章来源:http://news.swchina.org/hot/2020/0914/37150.shtml