沈艳、黄益平:“算法审查”是保证合法合规经营的重要一步

作者:

沈艳 北京大学汇丰商学院院长助理

黄益平 北京大学国家发展研究院副院长

12月19日,中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(下简称《数据二十条》)正式发布,首次明确提出了数据产权、数据流通和交易、数据要素收益分配和数据要素治理等四个方面的制度框架。《数据二十条》是在明确数据成为新的生产要素之后又一个历史性的政策文件,在数据确权、数据交易和数据治理等领域的重要创新,将对中国数字经济发展格局产生深远影响。当然,建立数据制度是一个全新的挑战,现在开了一个好头,还有不少问题值得进一步讨论,数据制度也可以在探索中不断完善。

数据确权制度

《数据二十条》首要的创新是提出数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的产权制度。这个创新性的安排切合数字经济的特点,数据要素形成过程中的参与方比较多,这意味着数据很难像土地、劳动和资本那样清晰地确定所有权。这个“三权分置”的框架不纠结于数据“归谁所有”这一传统视角,而是从数据的三种形态出发,明确对应的持有权、加工使用权和经营权。以“三权分置”为主线,从公共数据、企业数据和个人数据这三个维度,界定“谁的数据”;同时也明确确权依据是“数据来源和数据生成特征”,这就让数据来源方、数据处理方、数据使用方的权益得到了保障。

《数据二十条》提出的数据资源、数据和数据产品这三种形态是确立产权分置制度的基础。从准确理解数据的特性与功能,还可以进一步明确“数据三态”,数据资源包含了存在于公共机构、自然界、企业、个人等多方的可以以数据形式记录的信息;数据产品是采集、清理和加工数据资源所形成的成果;数据资产则是数据产品应用于经营活动时的形态。

数据流通和交易制度

《数据二十条》的另一个重大突破是基于数据要素的特征,提出了一个全流程的合规与监管规则体系。这一文件系统地回答了数据交易和流通中的六大问题:一是什么样的数据可以流通;二是怎样评估数据质量;三是数据流通需要哪些软硬件准备;四是数据流通在什么样的场所完成;五是数据如何定价;六是如何做数据质量控制。

这个框架充分考虑了数据要素不同于传统生产要素的特征在供给、需求和交易环节造成的挑战。数据包含个人隐私和商业机密,还具有非排他性、非竞争性和非耗竭性,同时信息不对称的矛盾十分突出,因此数据无法像土地、劳动和资本那样在市场上流通。所以,要建立健全的数据交易市场体系,需要解决数据供给方、数据需求方以及数据交易环节中的困难。最突出的问题可能是数据有效供给不足,品牌数据缺乏。数据需求不少,但是交易或流通收益少、合规风险和安全风险大,导致数据供给方不想卖、不敢卖。有效供给不足,数据方也存在寻找合适数据难、货比三家难、内外整合难和安全保障难等问题。另外在交易环节,还存在数据交易机制不顺畅的问题,数据交易争端难以解决等方面。

《数据二十条》从增加有效供给和提高数据交易效率这两个维度破局,同样具有很强的创新性,而且也留下发展空间。在交易场所方面,关注点主要放在“统筹构建规范高效的数据交易场所”,提出“引导多种类型的数据交易场所共同发展,突出国家级数据交易场所合规监管和基础服务功能”。在可预见的将来,可能需要特别重视场外交易的重要性,至少是作为正规交易所场内交易的重要补充。

目前比较常见的数据交易模式有三类:第一类是点对点模式,主要是企业之间自发签订合同对数据或数据开发进行交易;第二类是数据中介,其中最常见的是数据经纪商,作为中介对接数据交易的供需双方,一方面收集并开发数据,另一方面根据特定需求提供数据或与数据相关的增值服务;第三类是数据集市模式,构建数据交易的平台,数据交易所是数据集市模式的一种形式。

从全球的经验看,数据集市不容易做,规模也小。据Maximize Market Research统计,2021年全球数据中介交易约为2572亿美元,预计2029年将达3657亿美元;而Grand View Research 的统计显示2021年全球数据集市的市场规模为7.8亿美元(其中B2B数据集市占据了58%的收入份额),预计2030年将达50.9亿美元。另外,有大量数据集市失败或关闭的例子,比如微软的Azure DataMarket(-2018)、Kasabi(2010-2012)、奥地利的Data Market Austria, Swivel.com等。

数据显示,目前的主流模式是依托于品牌数据经纪商的数据交易。在美国,许多行业都有典型的数据经纪商,比如Corelogic涵盖了美国99%以上住宅与商业地产数据等。

数据交易困难的症结在于信息不对称程度高、信任不容易建立,好的交易模式必须有效地解决这个问题。点对点可行,是因为供需双方见面,供需直接匹配。数据商占主导,是因为中介可以帮助降低信息不对称、增加信任。交易所进展有限,是因为数据产品比较难标准化,除非交易所兼做数据商或者引入大量的数据商。现在数据交易市场体系刚刚开始建立,不妨让“有效市场”和“有为政府”共同发挥作用,如果数据商有能力解决问题,那就不必过分纠结场内还是场外,当然,对场外交易也要做到监管全覆盖。

探索算法审计制度

《数据二十条》提出数据治理的目标是“打造安全可信、包容创新、公平开放、监管有效的数据要素市场环境”,并首次提到要建立“算法审查”制度。算法对于数字经济中经营效率的提升和信用风险的管控作出了重大贡献。与此同时,算法黑箱、算法歧视等问题也时有所闻,关键是数字经济企业的大部分合作者和消费者完全无法判断算法的公平性,监管部门在现行政策框架下也很难真正做到穿透式监管。因此,“算法审查”是保证合法合规经营的重要一步。

但《数据二十条》并没有明确说明算法审查谁来做、怎么做。算法治理的核心有三个层面,一是企业自我实行合规管理并制定科技伦理准则,坚持科技向善的导向;二是建立算法备案机制,起码可以对监管部门做到规则透明;三是监管部门或受委托的第三方定期或不定期组织算法审计,也可以在收到其它市场参与者投诉的时候启动。未来一条可行的路径是由监管部门设定规则、市场机构具体执行的“算法审计”。

算法审计是指收集有关算法在特定环境中使用时的数据,并据此评估算法的合法性和公平性。美国总统办公室在2016年的一份报告就明确了推动算法审计的方向。从业界经验看,头部审计公司也积极参与到算法审计中,如德勤对外,尤其是对政府客户推出的算法审计服务,设立了算法审计师、并明确算法审计工具箱等安排。中国可借鉴国际经验,进一步明确算法审计的路径、具体框架和评估尺度,构建算法审计制度。

算法审计一般有两种思路,一种重视算法代码透明化,另一种重视对输入输出和对结果的评估。在算法代码透明化的安排中,要求企业提供核心算法程序,由独立第三方企业或者公共机构直接评估算法程序是否合理。这一安排的弊端在于,可能会涉及被审计企业的核心商业机密而被拒绝,而审查机构也无从知晓所提供的算法是否就是实际使用的算法。在重视输入输出和结果的审计安排中,输入审计是指要求平台明确,在个性化服务的时候,依据的是哪些重点维度。输出审计是指要求平台报告依据算法,最主要追求的是什么样的目标,比如公平究竟是什么;同时要求平台报告算法相关成效,并评估相关成效。

算法使用机构应该从多个维度报告算法安排:一是预测或优化目标以及具体指标,阐明算法设计时对不同利益相关方的利益的考量;二是算法训练和评估及选择中用到的数据,包括数据的搜集、排除和代表性;三是算法技术,特别是不同技术的比较与选择;四是算法运行效果,包括预测精准度和利益相关方的利益;五是个人信息保护和数据安全方面的安排。另外,算法审计可以考虑一些基本的指标,包括歧视、有效性、透明度、直接影响、安全性和可获得性等。当然,在具体的执行过程中可以根据业务的特点对评估指标做一些特定的选择与安排。通过为算法在上述维度及其分项按照合规程度打分,帮助利益相关方和社会公众对平台的算法合规程度有全面的了解,从而推动企业有更高的积极性用合规的算法来推动自身发展、推动中国数字经济的健康成长。