刑事司法危险评估实践的风险与改良建议

来源：南京社会科学作者：江溯
发布于：2021-05-14 共12349字

　　摘要：　评估罪犯未来犯罪活动的风险一直是刑事司法体系的重要任务。随着循证司法活动的开展，危险评估工具被引入刑事司法系统中。在美国，危险评估工具经过四代更迭，已经发展成为较为成熟的技术。与临床判断相比，危险评估在预测准确性、降低司法成本和维护公共安全等方面存在较为明显的优势，因而被广泛应用于从警务到刑罚执行的各个阶段。当然，危险评估工具在透明性、准确性等方面仍存在疑问，甚至存在违反宪法正当程序和平等保护等基本原则的危险。通过建立问责机制，提升危险评估工具的透明度、有效性和公平性，才能确保危险评估得到良性发展。

　　关键词：　危险评估; 准确性; 透明度; 平等保护; 再犯罪危险;

　　Abstract：　Assessing the risk of future criminal activity by criminals has always been an important task in the criminal justice system. With the development of evidence-based judicial activities, risk assessment tools are introduced into the criminal justice system. In the United States, risk assessment tools have developed more sophisticated technologies after four generations of change. Compared with clinical judgment, risk assessment has obvious advantages in predicting accuracy, reducing judicial costs and maintaining public safety. Therefore, it is widely used in all stages from police to penalty execution. Of course, there are still doubts about transparency, accuracy, and even the danger of violating the basic principles of constitutional due process and equal protection. The transparency, effectiveness and fairness of risk assessment tools can be ensured by establishing accountability mechanisms and enhancing the transparency, effectiveness and fairness of risk assessment tools.

　　Keyword：　risk assessment; accuracy; transparency; equal protection; reoffending; risk;

刑事司法危险评估实践的风险与改良建议

　　犯罪学研究表明，在刑事司法领域存在类似于经济学领域“二八定律”的规律，即绝大多数犯罪是由少数反复犯罪的罪犯所实施的。如果能够准确地找出少数危险性极高的犯罪分子并加以监管，那么全社会的犯罪将会得到有效控制。作为实现该目标的途径之一，大量的危险评估工具先后诞生并被适用于从侦查前到判决后的整个刑事司法过程。在美国，危险评估工具经过四代更迭，已经发展成为较为成熟的技术。我国在刑事司法中应借鉴相关经验并切中问题加以改良，构建危险评估制度。

　　一、刑事司法危险评估的基本内涵及方法

　　评估罪犯未来犯罪活动的风险一直是刑事司法实践的重要部分，具有一定自由裁量权的决策者在量刑时可能会不经意地考虑罪犯过去的犯罪行为。然而，这种凭借司法人员经验评估的方法极易忽视推理过程的科学性，给罪犯贴上不客观的“标签”。自20世纪20年代以来，随着循证司法活动的开展，危险评估工具被引入司法系统中，将主观判断客观化为数据公式，并逐步扩大其适用范围。刑事司法中的危险评估，通常是指使用正式的、精算的方法来预测未来犯罪或不当行为的可能性。①危险评估算法是利用与犯罪有统计相关性的风险因素(包括危险因素和保护因素)编写统计公式，以预测目标结果发生概率的统计模型，这一功能通常是通过将个体特征变量结合到风险评分中来实现的。评分系统通常使用数据统计技术和启发式算法创建，以考虑每个风险因素如何影响特定结果的预测，最终根据个人在算法中得到的分数将其划分为不同的风险等级。②

　　在美国，刑事司法中的危险评估已历经几十年的实践。自20世纪20年代初期以来，犯罪预测一直是美国刑事司法系统的一个特征。从20世纪60年代末期和70年代初期开始，犯罪预测研究主要集中在如何确定罪犯的危险性。然而，由于预测方式的复杂性，早期尝试造成了较高的假阳性偏差，一些研究错误地将54%到99%的参与者认定为“危险的”。③直到20世纪70年代，从惩罚到改造的刑罚目的转变一直主导着刑事司法的讨论。为了确保康复改造的有效性，法官在量刑决定方面被赋予了特别的自由裁量权。然而，这一裁量权可能致使黑人在量刑时受到与同龄白人相比不公平的对待。考虑到这些问题，20世纪七八十年代的量刑改革运动又转向了报应性理念。严厉的报应性措施开创了大规模监禁的时代，政策制定者很快开始努力解决美国不断增长的监狱人口所带来的问题。近年来，出现了一种循证实践(Evidence-based Practices, EBP),这种做法努力通过科学和定量方法来改进判刑决定，使判决更全面地考虑相关的功利因素和报应因素。尽管循证实践运动因几乎没有解决大规模监禁问题而受到批评，但循证实践旨在通过使用经验评估来改进司法程序，以在各个阶段都能够形成相对科学的决定的做法逐渐被美国各大司法辖区使用。在此背景下，精算危险评估正在作为一种理性、客观且经验上可靠的技术得到推广，以限制司法决策者的自由裁量权，并提供有关未来犯罪风险的预测。④许多支持者都指出，与临床判断相比，危险评估在提升预测准确性、降低司法成本和维护公共安全等方面有较为明显的表现。

　　在众多的危险评估工具中，尽管每项工具所使用的变量都不尽相同，但将其进行集合比对可以发现，尽管无法抽象出唯一或多个“公约数”,但其中仍有一些变量被频繁采用。对这类常见的危险评估因素进行研究，将帮助我们对危险评估模型的建构核心有更深入的认识。有研究者发现，在设计危险评估工具，尤其是涉及成年人暴力危险评估时，有四类因素经常被纳入考量范畴。首先是与个人基本特征有关的因素，比如年龄、性别、种族或族裔以及人格，而人格因素中与暴力危险密切相关的是一个人遭受愤怒的倾向及其控制其表达的能力。其次是个人精神因素，增加一个人未来从事暴力犯罪可能性的三个风险因素包括精神障碍、人格障碍和物质滥用障碍。再次是个人曾经实施的犯罪行为，尤其是其已经实施的暴力或其他犯罪行为的程度。最后是环境对个人的影响因素，主要体现在罪犯的两种童年经历上，即个人是否在病态的家庭环境中长大，以及是否曾遭受家庭暴力。⑤

　　美国危险评估工具和技术经历了四次迭代，逐步演变为当今相对较为成熟的危险评估机制。第一代危险评估基于非结构化的临床判断所得，矫正人员和临床专业人员通过自己的经验来预判罪犯的危险性，但纯粹的主观判断易受人为错误和偏见的影响，使初代危险评估的准确性受到质疑。第二代危险评估利用已知影响危险的行为变量，为其分配相应的分数，司法人员通过评估特定个体所得分数来判断其犯罪(或再犯)风险。第二代危险评估工具中比较着名的有暴力风险评估指南(VRAG),它包含12个评估因素，如年龄、婚姻状况、犯罪史和精神病等。⑥但第二代危险评估工具的主要限制在于只利用静态的、不可变的风险因素，旨在简短而有效地评分，而非针对罪犯的改造需求。在此基础上，第三代危险评估工具的进步之处在于其不仅考虑罪犯的犯罪史和药物滥用史等静态因素，还增加了研究罪犯现在与以往相比情况变化的动态因素，比如罪犯的反社会心理状态。静态因素通常是历史的、不可改变的，通常不适合干预；而动态因素的加入能为矫正人员就罪犯干预应针对的内容提供信息。⑦第三代危险评估工具的典型例子是LSI-R,根据维拉研究所(Vera Institute)的一项全国调查，它是美国刑事司法机构最常用的通用风险需求工具。⑧第四代危险评估工具融合了系统性干预和监测，将更广泛的罪犯风险因素及其他对矫正有重要影响的因素都囊括进来，根据每个罪犯的个人特征定制康复计划。第四代危险评估工具的一个典型例子是COMPAS,这一工具旨在“评估罪犯犯罪需求和累犯风险”,被用于为罪犯的安置、监督和案件管理决策提供信息。与提供单一风险评分的其他危险评估工具不同，COMPAS还为罪犯提供了一份犯罪需求概况，包含关于罪犯的犯罪历史、需求评估、犯罪人格、社会环境等方面的信息。⑨

　　二、刑事司法危险评估的应用场景

　　危险评估因其显现出的诸多制度优势，应用范围已经逐步扩展至从警务到刑罚执行的整个刑事司法过程。尤其是在审前羁押、起诉和量刑等对犯罪嫌疑人、被告人人身权益带来重大影响的环节中，危险评估在罪犯危险性的判断问题上发挥着不可或缺的辅助作用。

　　(一)危险评估在警务中的应用

　　美国有学者曾提出，一种战略性、面向未来和有针对性的犯罪控制方法，侧重于识别、分析和管理持续存在和发展的问题或风险，而不是被动调查和发现个别犯罪。⑩基于预防并控制未来可能犯罪的需求，大量用于预测性警务的危险评估工具试图对未来犯罪的地点和时间进行概率预测。根据其所用工具类型不同，可以将目前的监管形式分为以地点为中心的预测性警务和以个人为中心的预测性警务两大类。当然，预测性警务是一种短期战略，旨在切断未来的犯罪机会，但它不能取代旨在解决犯罪根本原因的长期预防犯罪战略。此外，对预防犯罪的过度关注可能与警方对公共卫生和社会秩序的维护等其他职能相冲突。

　　(二)危险评估在审前拘留中的应用

　　根据2016年的数据，不到10%的美国司法管辖区使用审前危险评估。然而，支持其引入的司法辖区正在增加，联邦和各州都正在推广此类危险评估工具。例如，最初由美国假释委员会开发并用于联邦系统的SFS工具，在评估假释风险时主要考虑以下因素：行为人在当前犯罪开始时的年龄、距离上次犯罪的间隔时期、先前是否被法院判处过一年以上的监禁以及当前或先前犯罪中使用暴力的程度。另一个公共安全评估工具PSA,在29个美国司法管辖区得到应用范围包含亚利桑那州、肯塔基州和新泽西州。该工具分析了跨越300个美国司法管辖区的150万起犯罪数据，使用一组静态风险因素来衡量风险，这些因素主要与被告人的年龄和犯罪历史有关。(11)总的来说，利用各种危险评估工具来辅助审前保释决策已经变得越来越普遍，以期在不增加公众风险的情况下，减少审判前被监禁的人数。

　　(三)危险评估在起诉中的应用

　　与预测性警务一样，预测性起诉也是一种积极主动的司法活动，试图主动识别和锁定城市中高犯罪风险的人群，然后利用这些信息来形成保释请求、指控决定和判刑论据，而非事后被动地应对已发生的犯罪。检察官比警察更有组织能力和权力来确保公平和负责任地使用预测技术。同时，相对警察而言，检察官由于负担维护司法正义的职责，可能更有能力确保在广泛采用预测性起诉之前解决准确性、透明度、有效性以及数据错误等问题。当然，另一方面，危险评估在起诉阶段的应用可能带来检察官角色和职能定位越界的问题。在危险评估中，检察官可以利用他们所有的客观数据和主观判断，在真正的突发犯罪发生之前决定对特定个体启动调查，甚至使用逮捕、起诉等方式来实现使目标个体丧失行动能力的目的。这显然超出了检察官的公诉职能范围，可能造成检察官权力的不当扩张。

　　(四)危险评估在判决中的应用

　　在过去十年中，基于风险的判决得到了包括美国法学会在内的许多有影响力的组织的支持，一些司法管辖区开始在判决前向法官提供危险评估信息，以辅助法官决定罪犯的刑期及服刑地点。此外，危险评估在判决阶段的应用也有了新的发展。少数州已将危险评估纳入量刑指南，作为法官在法律规定的限度内确定适当刑罚时可以考虑的一个因素。此外，一些州尝试以新的方式应用危险评估来支持司法再投资。在前端，获得中、低等风险评价的罪犯可能会被从监狱转移到社区的替代治疗项目中；在后端，通过创建或增加时间信用(time credits),危险评估可被用以缩短刑期，这将鼓励某些囚犯通过参与教育、工作或其他降低危险性的项目来加速减刑。在这一方面，2015年《判刑改革和惩戒法》(SRCA)的规定最为全面，在缩小强制最低刑期适用的罪犯范围(前端解决方案)的同时，扩大累犯减少计划和罪犯提前释放激励(后端解决方案)的适用。

　　(五)危险评估在刑罚执行中的应用

　　在监禁刑执行中，危险评估可以帮助监狱管理人员评估罪犯的风险级别，从而对不同等级的罪犯实施监控力度不同的管理，针对不同犯罪需求的罪犯正确选取促进其重返社会的措施，提高监管效益。同时，使危险性高的罪犯得到高强度控制，还能够避免狱内暴力行为等二次伤害，以及罪犯越狱逃脱等情形出现，维护正常的监管秩序。在社区监督中，危险评估可以帮助监管机构对罪犯进行分类管理，对危险性大的罪犯强化监督，甚至遣返到监禁机构，以保障社会公共安全；而对危险性小的罪犯减少人财物投入，从而科学配置监管资源。

　　三、刑事司法危险评估实践中存在的风险

　　尽管危险评估在美国的刑事司法中已得到普遍应用，支持者也力求从各个方面证明其制度优越性，但对危险评估的质疑和反对之声从未停止。不论是工具本身的透明度和准确性，还是工具背后折射出的宪法问题，都引发了学术界和实务界的激烈讨论。

　　(一)算法的不透明性

　　在危险评估的应用问题上，很多人担忧这一新技术与司法系统的目标不匹配，而评估算法的不透明性加剧了这种担忧。由于工具开发人员可能不披露预测风险所考虑的因素，被告人、司法决策者和公众无法知道某些遭受质疑的因素(比如种族)是否影响到了作出司法决定时使用的风险评分。(12)然而，由于一系列原因，完全透明在刑事司法的危险评估中几乎不可能实现。首先，评估工具可能受使用许可合同中商业秘密条款的约束。即使算法的源代码是可用的，获得账户的司法人员或被告方通常也缺乏专业知识来推断算法选择或分析过程中固有的偏差。(13)此外，鉴于有效性研究是工具质量的指标，工具开发者也没有披露这些选择的经济动机，因为披露关于工具构建的特定信息可能会导致公众对该算法的批评，或被竞争对手利用以促使司法系统寻找替代产品。最后，即使该产业发展成熟，详细披露工具算法也将会导致技术剽窃，从而使新的竞争对手进入发展中的市场分割“蛋糕”。

　　(二)数据的自身偏差

　　危险评估的另一个潜在风险来自于数据本身的可能偏差。在危险评估工具的各个环节，收集错误、处理错误、分析错误、应用程序错误或共享错误都将或多或少地影响到最终结果。使用这些存在偏差的数据来确定剥夺罪犯人身自由的程度，无疑将可能侵犯个人权利。首先，在数据收集阶段，如何寻找数据、收集数据以及如何组装数据，对预测结果都有重大影响。其次，危险评估的统计验证受到一个基本问题的困扰，即一个人是否犯罪的基本事实通常只能通过一系列不完善的代理数据来估计。同时，单纯的数据很难区分造成同一结果的不同原因。例如，罪犯未能出庭有许多不同的可能原因，并不当然意味着个人对社会公共安全构成威胁(例如家庭紧急情况或有限的交通选择),将所有原因归纳在一起得到的未出庭率会不公正地增加那些有正当理由未出庭的个人受到不公平对待的可能性。(14)再次，当历史数据在潜在现实或数据收集中嵌入歧视时，这一固有偏见的“事实”可能会造成对贫困社区、不同种族群体和社会经济地位较低的人的永久歧视循环。(15)最后，使用危险评估影响司法决定的实践本身也会反过来影响未来收集的数据。

　　(三)评估结果偏向保守

　　尽管危险评估支持者的一个主要理由是精算预测将比个人预测更加准确，但事实上，关于危险评估准确性的争论从未停止。这一争论不仅体现在与人类直觉判断方法的外部比较上，也体现在评估工具自身预测结果的保守性上。传统上，危险评估的准确性是根据真阳性和真阴性及其对立面假阳性和假阴性来衡量的。近来有研究指出，危险评估工具在30%的情况下会产生错误结果，或者错误地将没有在未来犯下罪行的罪犯识别为高再犯风险(假阳性),或者错误地将已在未来犯下罪行的罪犯识别为低再犯风险(假阴性)。(16)而绝大多数学者认为，假阴性的成本高于假阳性，因为“它们实际上可能涉及未被检测出的累犯所犯新罪行对受害者造成伤害并危及公共安全”。这种代价是非常昂贵的，因此大多数评估结果都偏向保守。鉴于评估的保守性质，一些事实上危险性不大的个人仍倾向于被认定为高风险。此外，危险评估工具的运行逻辑也会导致结果的保守性。那些被认为高风险的人可能并不是特别危险，一个人可能仅仅因为其在接下来的几年中更有可能因低级别犯罪被逮捕或判刑，就被贴上高风险罪犯的标签，从而以公共安全的名义延长其刑期。正如乔纳森·西蒙所指出的，“现代危险评估已经变成一种更普遍的风险”(17)。

　　(四)客观中立性受限

　　在刑事司法中引入危险评估的一个重要理由在于，由于技术的中立性，使用危险评估工具辅助司法决定将兼具准确与公平。但很多学者对此提出质疑，认为危险评估同样是一个“涉及权力、透明度和监督的政治问题”,并不像主流媒体描绘的那样客观中立。相反，大数据现有的分析和它们产生的知识是社会政治和文化的人造产物，不可避免地带有刑事政策考量的因素。而近年的发展表明，刑事司法系统中的危险评估工具往往导致更多惩罚的结果。正如安德里亚·罗斯教授所解释的，机械化工具的创造经常巧妙地寻求“增加惩罚的统一性和合理性，但通常是朝着远离宽大处理的方向的”(18)。有学者认为，危险评估算法本质上是经典官僚程序的数字化产物，是管理受托维护法律秩序的司法机构行为的游戏规则，通过标准化和非个人化的数据处理创建分类。这一新技术在刑事司法中的应用将官僚领域扩展到以前被认定为属于专业判断的法学领域，这一问题是值得警惕的。(19)

　　(五)正当程序与平等保护

　　在刑事司法中运用危险评估，一直以来都遭受诸多违宪质疑。首先，正当程序原则要求政府无论何时剥夺一个人的生命、自由或财产都要确保被告人必须能够面对和盘问证人。但在危险评估中，尽管最终的“高风险”预测结果可能使被告人被审前拘留或最终被判处更长时间的监禁，但正如美国着名的卢米斯案中呈现的那样，由于计算机算法在很多情况下不被公开，被告人很难询问这个“机器证人”。(20)有学者认为，为了证明由于未来行为的风险而加强惩罚是合理的，危险评估应该只考虑应受惩罚的自愿行为即“被告做了什么”,主要包括罪犯正接受审判的罪行以及其犯罪历史。其中，前者是施加处罚的根本原因，即使那些从公共安全利益角度证明惩罚正当性的功利主义理论，也不能证明监禁一个没有被定罪的人是正当的。(21)

　　(六)种族歧视

　　在危险评估的诸多宪法问题中，最饱受争议的一点就是潜在的种族歧视。根据美国司法统计局的最新数据，年轻黑人男性被判监禁的可能性是年轻白人男性的九倍以上。正如美国前司法部部长埃里克·霍尔德所说，尽管危险评估“是出于好意，但我担心它们可能会无意中破坏我们确保个性化和平等公正的努力”(22)。由于种族歧视是受到宪法最严格审查的因素，司法机构一直小心翼翼地从精算评估中排除种族的不良影响。例如，在准备采用精算量刑的过程中，宾夕法尼亚州量刑委员会在确定该州量刑危险评估因素的研究中，发现种族与累犯的可能性高度相关，非裔美国人被认为存在较高的累犯风险，但考虑到种族因素的特殊性，最终该因素被排除。(23)然而，一些看似不太可疑的风险因素与种族也有着很强的关联性，以至于简单地将种族排除在评估因素之外是不够的，一些与之相关的非过失特征——例如性别、年龄和教育历史等——遗留在算法中，仍然会发挥种族变量的影响“余热”。与此同时，删除所有与种族因素相关的变量可能会大大降低预测精确度，使危险评估分析变得不可采用。

　　四、刑事司法危险评估的引入与改良

　　危险评估在罪犯危险性的判断上以及犯罪预防上发挥着不可或缺的辅助作用，我国在刑事司法实践中可以借鉴相关经验逐步构建危险评估制度。然而毋庸置疑，危险评估在预测准确性、透明度及罪犯的宪法权利等方面确实存在潜在风险。因此中国在构建刑事司法危险评估制度过程中应通过建立问责机制、实现危险评估工具的透明化、提升有效性和公平性等路径不断改良，以期取得长久稳定的发展。

　　(一)建立问责机制

　　由于危险评估工具为当地司法决定的执行提供了重要参考，因此各司法管辖区必须对其治理负责。这些极富挑战性的政策问题，不能也不应该仅由工具开发者来回答，而是需要司法系统决策者和公众的积极参与。

　　使用该工具的司法辖区不仅应确保评估工具按照预先设定的算法准确运行，而且应在不同阶段参与工具的构建与改进，以确保危险评估结果能够很好地反映法律价值和社会价值。这一目标要求各司法辖区在工具构建阶段举行公开听证会，就选用何种危险评估工具及工具中具体风险变量进行表决。(24)在事后监督阶段，各司法辖区应当持续评估该工具的有效性、准确性和在更广泛司法阶段中的作用，根据其实际需求采取包括开发额外的计算机程序审计数据收集过程、核查系统功能，以及为法院和管理人员发布培训计划，以确保评估的正确应用等举措，保证利益相关方和公众的广泛参与。

　　在上述众多问责措施中，很重要的是司法辖区应定期独立审查评估算法，发布对所有危险评估工具的审计，检查系统的预测结果和运行情况，以验证评估工具的有效性、准确性和公平性。在事前阶段，每当立法机构或司法机构决定使用某一危险评估工具时，司法当局应同时确保可以收集应用后的数据，并提供充分的资源支持对该工具的公开分析和审查。这既需要提前为此分配充足的资金，也需要司法机构承诺聘请统计和犯罪学专家，以确保数据收集和审查的规范化。(25)在事后阶段，对危险评估工具的审计也应当满足一定条件。首先是本地化，评估中诸如犯罪分布等变量往往带有强烈的本土色彩，因此审计应当依托于本辖区内的数据进行。其次，审计程序最好在司法机构工作人员在场的情况下运行，同时须由独立的外部机构(如审查委员会)负责监督审计。最后，审计过程及方法必须向公众公开，允许公众监督。一旦在任一环节发现可疑因素，工具开发者应当接受建议并适当整改。当然，为了降低隐私风险，公布的审计信息应当经过充分的保密处理，防止后续被去匿名化。

　　(二)实现评估透明化

　　危险评估工具体现了政府作出的重要公共政策决定，因而必须像其他法律、法规或法院判决一样公开透明。但实际上，出于商业秘密等因素考量，工具开发者没有动力将算法完全公之于众，此时往往需要政府通过颁布法令等方式，强制披露危险评估工具构建中的重要信息。

　　对于工具开发人员来说，有必要保持重要数据的透明度，以确保刑事司法专家能够就危险评估工具的构建和采用提出合理化意见。首先，应披露数据集的特定来源信息、风险因素的选择及每一次的数据修改，以确保工具的价值取向不违背国家法律政策。当然，为了保护开发者的商业秘密，详细的工具算法可以不包括在公开发布的信息之列。

　　其次，算法的透明性要求危险评估工具以一种直截了当且易于理解的方式向用户传达预测，让使用者能够清楚地理解输入特征和输出预测之间的关系。工具开发者为算法提供解释可以帮助用户理解每个变量对危险评估结果的贡献，以及算法对特定变量的敏感性。这有助于确保决策者对危险评估结果理解的一致性，排除个别法官主观误解导致的司法应用差异。

　　最后，高度透明的危险评估工具应当披露预测结果的不确定性来源和自身局限性。统计类决策工具面临的一个关键挑战是自动化偏差现象，人类似乎天然地认为机械化算法提供的信息不容置疑，这可能导致对此类工具的过度依赖。但事实上，危险评估工具存在很多不确定性因素。比如样本大小和数据集中异常值的存在，这种类型的不确定性可以使用自举置信区间来测量，这些置信区间通常被开发公司用于在正式投入使用前评估工具的预测能力。本文提到的卢米斯案的裁决间接解决了这一问题，要求所有包含COMPAS危险评估的调查报告必须附有书面免责声明，表明COMPAS给出的罪犯风险分数可能不准确。

　　(三)提升评估有效性

　　当代危险评估的有效性面临着深刻且悬而未决的挑战，抽样和分析中的错误和偏见都使刑事司法数据集可能无法确切反映其原本想要衡量的目标。针对数据偏差对评估结果的影响问题，一方面，为保证危险评估工具的外部有效性，在各司法辖区中应确保工具的高度地域适配性，以每个辖区为单位进行数据收集，以捕捉影响危险评估结果的地理、交通和各地司法程序的显着差异。另一方面，为保证危险评估工具的内部有效性，可考虑使用新的高质量二级数据源对数据进行加权和去偏，并确保再加工过程中不会产生二次错误。

　　估计危险评估中的数据偏差相当困难，但在某些情况下，通过使用司法或执法机构独立收集的二级数据来源是可能实现的。(26)例如，可以使用国家犯罪受害情况调查或国家青年纵向调查等收集关于犯罪和逮捕的自我报告数据进行重新加权，此类调查均可以提供与先前不同的犯罪人信息统计方法。然而，执行这种重新加权将是一项艰巨的统计任务，很有可能在此过程中出现错误，因此必须开发一种被统计研究团体接受的方法，用于确定数据重新加权是否产生了准确反映社会现状的有效结果。尽管目前尚不存在使用这种方法构建的危险评估工具，但这不失为未来的一种改良路径。

　　最后，有学者针对这一问题提出较为激进的方案，认为提高危险评估有效性的最佳路径是从预测技术转向诊断方法，进行统计因果推断。统计因果推断是用于建立协变量与目标结果变量之间的因果关系的框架，在此框架内可以通过设计实验条件，系统地更改协变量以查看该变化是否在结果变量中产生变化。因果推断与目前危险评估工具的主要区别在于，司法系统可以更改协变量的值以检查其是否拥有导致结果变量的能力，这将有助于我们了解刑事司法系统本身的犯罪学影响，并评估旨在中断犯罪周期的干预措施的有效性。因而，因果推断适合用于设计可降低未来犯罪风险的干预措施。(27)

　　(四)重塑工具公平性

　　事实上，对危险评估工具在违背平等保护及种族歧视方面的宪法质疑都不可避免地涉及评估工具的公平性缺陷。现有的公平性定义都或多或少地存在歧视性标记效应，因此在实践中，危险评估工具只能通过提供相对准确的个人水平预测来达到公平目的，在构建最能反映个体水平风险的风险分值之后，使相似的风险个体受到相似的对待，而不必排除可能导致歧视的变量。尽管这一方法通常会违反三类公平定义，但在目前是提高社会总体效益的有效举措。

　　为解决公平性问题，有学者提出了几个框架性建议。(28)首先，关于公平的技术和政策讨论都应基于现实世界中算法干预的成本—利益分析。其次，估计再次犯罪风险的任务不应与根据估计风险进行干预以防止再次犯罪的任务混为一谈。危险评估工具的目标应该是尽可能准确地评估风险，在此基础上，确定特定干预措施的有效性及相应的成本—收益分析是司法决策者的任务，危险评估工具不可越俎代庖。最后，应当提高危险评估工具的开发和应用的透明度，同时使所有利益相关者及时参与到工具评估和审计环节中，确保风险模型采用最佳统计方法和数据进行设计。

　　在具体改进举措方面，在算法的开发阶段，特别是在数据输入和分析时，就应当尽可能多地消除不必要变量，尤其是那些可能影响种族歧视或依赖于历史偏见的数据集。对此，有研究结果佐证，可以从系统中删除一些最受质疑的变量，而无需牺牲准确性。部分学者甚至提出了更具争议的立场，声称即使排除了部分影响平等保护的变量会降低算法的准确性，也应该坚定不移地排除。正如奥尼尔所说，“在某些情况下，为了公平有必要牺牲模型的准确性，简化算法。如果我们要实现法律面前一律平等，就注定无法支持将我们置于不同等级并区别的制度”(29)。针对上述看法，反对意见认为，现代危险评估方法不需要因为宪法或道德原因而被抛弃或删减。如果种族等一系列变量被排除在外，可能会导致统计结果的省略变量偏差。(30)

　　五、结语

　　应当看到，对刑事司法中危险评估工具的应用尚处于探索阶段，本文针对现有工具暴露出的透明度、公平性、有效性等方面问题提出了自己的构想，提出的改良路径还需要司法实践验证并逐步接受，这需要一个较长的过程。危险评估工具在未来存在巨大的发展空间，我们应当努力在新技术和传统法律实践活动实现融合，寻求算法技术与法律价值、经济效益和社会效益之间的平衡。

　　注释

　　1Megan T.Stevenson,Assessing Risk Assessment in Action,Minnesota Law Review,2017,103.1:303-384.
　　2(14)(25)(26)Report on Algorithmic Risk Assessment Tools in the U.S.Criminal Justice System,Partnership on AI,https://www.partnershiponai.org/report-on-machine-learning-in-risk-assessment-tools-in-the-u-s-criminal-justice-system/.
　　3Kelly Hannah-Moffat,Actuarial Sentencing:An “Unsettled” Proposition,Justice Quarterly,2012,30.2:270-296.
　　4John Monahan,A Jurisprudence of Risk Assessment:Forecasting Harm Among Prisoners,Predators,and Patients,Virginia Law Review,2006,92.3:391-435.
　　5Melissa Hamilton,Back to the Future:The Influence of Criminal History on Risk Assessments,Berkeley Journal of Criminal Law,2015,20.1:76-133.
　　6Chelsea Barabas et al.,Interventions over Predictions:Reframing the Ethical Debate for Actuarial Risk Assessment,Proceedings of the 1st Conference on Fairness,Accountability and Transparency,Proceeding of Machine Learning Research,2018,81:62-76.
　　7Melissa Hamilton,Risk-Needs Assessment:Constitutional and Ethical Challenges,American Criminal Law Review,2014,52.2:231-291.
　　8(13)(15)Lyria Bennett Moses & Janet Chan,Algorithmic Prediction in Policing:Assumptions,Evaluation,and Accountability,Policing and Society,2018,28.7:806-822.
　　9(11)(27)Danielle Kehl,Priscilla Guo & Samuel Kessle,Algorithms in the Criminal Justice System:Assessing the Use of Risk Assessments in Sentencing,DASH,https://dash.harvard.edu/handle/1/33746041.
　　10(12)(18)Jessica M.Eaglin,Predictive Analytics’ Punishment Mismatch,A Journal of Law and Policy,2017,14.1:87-107.
　　11(16)(17)(21)(23)Erin Collins,Punishing Risk,The Geogretown Law Journal,2018,17.1:57-108.
　　12(19)Rik Peetersa & Marc Schuilenburg,Machine Justice:Governing Security Through the Bureaucracy of Algorithms,Information Polity,2018,23.1:267-280.
　　13(20)Luis Antonio Espino,Racism without a Face:Predictive Statistics in the Criminal Justice System,Submitted to Pomona College in Partial Fulfillment of the Degree of Bachelor of Arts,2018,p.2.
　　14(22)John Monahan & Jennifer L.Skeem,Risk Assessment in Criminal Sentencing,Annual Review of Clinical Psychology,2016,12.1:489-513.
　　15(24)Jessica M.Eaglin,Constructing Recipism Risk,Emory Law Journal,2017,67.1:59-122.
　　16(28)Sharad Goel et al.,The Accuracy,Equity,and Jurisprudence of Criminal Risk Assessment,SSRN Electronic Journal,9 Jan 2019,https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3306723.
　　17(29)Cathy O’Neil,Weapons of Math Destruction,Boston:Crown,2016:25-26.
　　18(30)Christopher Slobogin,A Defense of Modern Risk-Based Sentencing,in J.de Keijser et al.(eds.),Predictive Sentencing:Normative and Empirical Perspectives,Oxford:Hart Publishing,2019.

作者单位：北京大学法学院北京大学实证法务研究所北京大学法律人工智能实验室/研究中心

原文出处：江溯. 论刑事司法中的危险评估[J]. 南京社会科学,2021,(05):91-99.

相关内容推荐

1刑事司法危险评估实践的风险与改良建议