根据白皮书,联邦学习是一种机器学习的模式,其核心特征在于,参与各方在不转移自身数据的前提下,进行数据联合训练,从而实现联合建模的目标。
从技术上来说,横向联邦学习的实现方式是,用户的终端设备使用本地数据训练模型,并将模型的梯度和损失加密后汇总到中心服务器,中心服务器更新模型后传回到终端设备,各个终端设备更新各自的模型。纵向联邦学习的实现方式则是,对各参与方加密样本对齐,随后由中心服务器向参与方发送用于加密的公钥,参与方分别计算模型并加密交互特征中间结果,用来求得各自梯度和损失,梯度和损失加密后发送给中心服务器,中心服务器解密梯度和损失后回传给各参与方,各参与方更新模型。联邦迁移学习的实现方式和纵向联邦学习几乎相同。
出于保护隐私和个人信息的目的,数据领域的一般规则和金融领域特殊规则都将用户授权作为共享用户数据的基本前提条件之一。
关于金融领域的特殊规则,《做好个人金融信息保护工作的通知》第4条和《金融消费者权益保护实施办法》第32条规定,金融机构因数据分析等业务需要向外部机构和个人提供个人金融信息的,应当获得用户授权。《证券公司客户资料管理规范》第4.4条规定,客户同意是证券公司向外部机构和个人提供客户资料的合法性依据之一。《金融控股公司监督管理试行办法(征求意见稿)》第23条规定,金融控股集团在内部共享数据需要获得客户的书面授权。
对银行业金融机构而言,监管的基本框架是“原则禁止+例外允许”。2011年《中国人民银行关于银行业金融机构做好个人金融信息保护工作的通知》(以下简称“《做好个人金融信息保护工作的通知》”)第4条规定,金融机构原则上不得向本金融机构以外的其他机构和个人提供个人金融信息,仅在“业务必需且用户授权”或“法律法规、中国人民银行另有规定”的情况下方可对外提供。2016年《中国人民银行金融消费者权益保护实施办法》(以下简称“《金融消费者权益保护实施办法》”)第32条明确因监管、审计、数据分析等原因对外提供数据的合法性。因此,银行业金融机构只有在有限的情况下才能对外提供客户数据。
不过,2019年中国人民银行发布的《金融控股公司监督管理试行办法(征求意见稿)》在此问题上有所突破,其第22、23条规定,金融控股公司与其所控股机构之间、其所控股机构之间可以共享客户信息,应当确保依法合规、风险可控,防止客户信息被不当使用。不过,该办法至今尚未正式发布。此外,根据该办法,金融控股公司的设立需满足严格的实体条件和程序条件,能够获得牌照的企业数量有限;而且数据共享只限于金融控股集团内部,不包括与外部共享数据,故法律限制仍然很严格。
传统上,金融机构倾向于通过“数据孤岛”以获得或保持竞争优势,数据整合正是要打破“数据孤岛”。为了实现这一转变,除了监管者、金融集团自上而下的推动之外,还需要形成一套对数据资产和数据产品进行定价和利益补偿的机制,通过市场机制来均衡企业的贡献和收益,实现数据资产的公允定价和自由交易。
联邦学习可在不转移客户数据的情况下实现联合建模,也就避免了共享或转让客户数据需要获得用户授权的问题。这既适用于增量客户,也适用于存量客户,尤其是对于解决存量客户的授权难题,效果显著。
在联邦学习中,各个参与方对外提供的是模型梯度和损失,不提供数据,数据不出本地,自然不构成对外提供、共享或转移客户数据。因此,不违反法律对于对外提供客户金融数据的限制。这是由联邦学习的特征决定的,也是联邦学习的主要优势。
在传统数据建模的过程中,一般需要将多源数据集中到一个数据中心,然后再将每个用户的特征合成一条数据用来训练模型。数据在传输过程中,面临着安全风险;集中存储的数据也容易成为黑客攻击的主要目标,数据的安全保护措施如果不到位,数据容易泄露。除了外部攻击风险,数据的流转和集中也会增加来自内部的安全风险,如数据接收方及其工作人员的过量下载、违规使用等行为。
尽管联邦学习避免了共享或转让数据授权的问题,各参与方也不直接使用其他参与方的数据,但各参与方仍需要使用本地服务器中的客户数据进行建模。根据数据领域一般规定和金融领域监管规定,这一使用行为仍然需要获得客户授权。
关于金融领域的监管规定,《做好个人金融信息保护工作的通知》第4条、《证券基金经营机构信息技术管理办法》第34条和《互联网保险业务监管暂行办法》第18条要求银行业金融机构使用个人金融信息时应当符合收集该信息的目的;证券基金经营机构应当公开使用的规则和目的,并征得客户同意;互联网保险业务收集的客户信息,未经客户同意,不得用于所提供服务之外的目的。
联邦学习适用于部分应用场景,不能全面覆盖金融数据整合需求
在实践中,金融集团的数据整合是多层次、多场景和多目的的。在有些场景下,比如交叉营销、联合营销等,需要共享客户数据,比如手机号码等。由于联邦学习是一种建模框架,模型只能输出分值或是本地数据库中有的特定标签,但不能输出其他参与方数据库中的数据,因此联邦学习不能适用于这些场景。
联邦学习的建模效果依赖于参与者的数据量和数据质量,有越多的参与者加入联邦学习,或是参与者的数据资源越是丰富,模型将得到更多的优化,建模的效果将越好,因此联邦学习需要鼓励更多参与者加入。在采用联邦学习的情况下,仍然需要解决激励机制的问题。
联邦学习的激励机制除了在理论上仍有争议,在落地层面上也很难实现,因为要实现联邦学习的激励机制,绕不开数据价值的问题,而这个问题联邦学习自身无法解决,也没有一套公认的数据价值评估标准。
联邦学习服务商属于外包商或供应商。《银行业金融机构外包风险管理指引》(以下简称“《外包风险监管指引》”)第3条规定,外包是指将原来由自身负责处理的业务活动委托给服务提供商进行持续处理的行为,服务提供商包括独立第三方。《证券期货业信息安全保障管理办法》第6条规定,供应商为证券期货业提供的是软硬件产品或者技术服务。联邦学习服务商向金融机构提供软件产品或是技术服务,完成原本由金融机构自行完成的建模工作,因此联邦学习服务商属于金融机构的外包商或供应商。
根据上文分析,联邦学习参与方不转移数据,因此联邦学习不构成共享或转让。但是,参与方即使是在本地建模,也已经是联邦学习的一部分。《个人信息安全规范》第3.4条将个人信息控制者定义为有能力决定个人信息处理目的、方式等的组织或个人。如果参与方在本地建模时,联邦学习服务商已经有能力直接定义个人信息处理的目的或方式,则联邦学习服务商就相当于拥有了控制权,参与方一旦加入联邦学习,就是将客户数据的控制权全部或部分交给了联邦学习服务商,这就可能重新落入了数据共享或转让的范畴(不同于传统的共享或转让),从而受到法律限制和客户授权限制。这样一来,联邦学习的优势将被削弱。
联邦学习的特点在于在建模的过程中各方数据都保留在本地,参与方只共享模型中间计算结果而不共享数据。因此,联邦学习让金融领域数据整合不用受到对外提供数据的限制性规定,无需获得客户的共享授权,也可以减少数据安全风险,对解决当前金融数据整合面临的诸多难题有着重要意义。
<span style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; color: rgb(0, 122, 170); font-size: 14px; letter-spacing: 2px; text-align: left; font-family: mp-quote, -apple-system-font, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;"="">联邦学习仍需面对一些技术和法律难题,应用场景仍有限制,也需要激励机制鼓励更多企业加入。联邦学习在使用数据时仍应获得客户授权,企业也应履行对供应商进行风险管理的义务;而且在联邦学习行业成熟后,可能还会产生新的合规性挑战。