• 首页 >  信息科技 >  大数据
  • 杭州数据协同创新未来实验中心:2024全球隐私计算报告(48页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《杭州数据协同创新未来实验中心:2024全球隐私计算报告(48页).pdf》由会员分享,可在线阅读,更多相关《杭州数据协同创新未来实验中心:2024全球隐私计算报告(48页).pdf(48页珍藏版)》请在本站上搜索。 1、杭州数据协同创新未来实验中心 2024年9月CONTENTS目录01隐私计算产业发展概况022024隐私计算产业图谱03隐私计算技术演进和融合04 隐私计算产业应用分析05隐私计算与人工智能06隐私计算未来展望指导单位杭州市数据资源管理局支持单位浙江省大数据产业技术联盟杭州国际数字交易联盟特别支持单位中关村实验室杭州金智塔科技有限公司浙江蚂蚁密算科技有限公司联通数字科技有限公司联合发起单位浙江大学区块链与数据安全全国重点实验室中国联通智能城市研究院数据要素社杭州数据交易所主编张秉晟 王鹏 熊婷参编人员许苗峰、殷泽原、郭大宇、胡爽、应琦、潘凯伟、林洋、梁子轩、刘泽宇、申奇、申冠生、武通、卢天培、2、钱润芃、卢益彪、田磊原、冯宇扬、徐泽森、张洵、张文、吴钰沁、彭乐坤、张菊芳、黄益超、谢琴超、周旦、郑超Part One隐私计算产业发展概况2024全球隐私计算报告第一章隐私计算是用于保护数据安全、个人信息和商业秘密,促进数据高效流通、处理和分享等一系列技术的总称助力实现数据“供得出”“流得动”“用得好”“保安全”2023年,国家数据局会同有关部门制定“数据要素”三年行动计划(20242026年)国家数据局积极探索布局数据基础设施,加快数据空间等技术研究,推动隐私计算技术应用,打造安全可信流通环境,为数据要素流通、开发、利用提供支撑隐私计算技术分类 .安全多方计算同态加密零知识证明不经意传输可信3、执行环境差分隐私数据脱敏隐私计算技术是保障数据安全的关键技术国家数据局围绕数据要素市场化改革开展系列工作2024全球隐私计算报告隐私计算技术是保障数据安全的关键技术隐私计算,通常又被称为隐私保护计算,是“在计算中和计算后保护数据隐私的技术”。-联合国隐私保护计算技术手册优势劣势安全多方计算(MPC)学术界严谨的安全证明数据控制力强不依赖特殊硬件无硬件信任根,国密化方案较为可控有通用运算能力,但性能相对较低数据提供方增多性能会下降,一般适用于5方以下联邦学习(FL)数据控制力强不依赖特殊硬件无硬件信任根,国密化方案较为可控存在部分安全风险无通用运算能力数据提供方增多性能会下降,垂直场景一般建议于4、10方以下可信执行环境(TEE)理论上支持所有算法计算精度高,与明文一致计算性能支持大规模且性能损失小随着数据提供方增多不会有明显性能下降数据控制力比较弱需要相信硬件信任根需要额外硬件成本差分隐私(DP)可证明可衡量的个体隐私保护技术与上面所有技术路线可独立叠加计算精度明文比会有所下降,需结合算法流程设计不保护数据使用价值同态加密(HE)是经典 MPC、联邦学习方案重要基石,是目前隐私计算 PK 性能的关键通用FHE方案性能挑战大,硬件加速还在发展中零知识证明(ZK)验证速度快,证明通信量较小不泄露任何隐私信息能与其他隐私计算技术联合使用协议复杂,开发成本高大规模计算时证明开销大隐私计算技术路5、线 隐私计算是“隐私保护计算”(Privacy-Preserving Computation的简称,可以在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算,有效提取数据要素价值,保障了数据在产生、存储、计算、应用、销毁等各个环节中的“可用不可见”。隐私计算以安全多方计算(Secure Multi-party Computation,MPC)、联邦学习(Federated Learning,FL)、可信执行环境(Trusted Execution Environment,TEE)三大技术路线为代表,同时发展出了同态加密、差分隐私等其他密码学技术为辅助的成熟技术体系。隐私计算概述2024全6、球隐私计算报告 克劳德香农在20世纪40年代发表的重要论文保密系统的通信理论密码学数学理论 1976年Diffie和Hellman创建了公钥加密体制 1978年Rivest等人设计的非对称加密算法RSA和首次提出的同态加密概念 1981年Rabin首次提出不经意传输协议01萌芽期(1949-1981)隐私计算作为独立的概念在产学研界得到关注和发展,并融合密码学、人工智能等多学科技术逐渐形成了综合性技术体系。主流技术相继出现:1982年姚百万富翁问题 1987年Goldreich等人提出的安全多方计算协议 2009年Gentry提出全同态加密及OMTP提出首个可信执行环境标准 2016年中华人民7、共和国网络安全法使隐私计算技术不可或缺0探索期(1982-2016)随着数字经济的快速增长,隐私计算技术快速发展,成为促进数据要素跨域流通和应用的核心技术,广泛用于金融、通信、互联网、政务等领域 相关政策标准不断细化完善,如:2018年欧盟GDPR,2019年联合国隐私保护计算技术联合国手册,2020年中国“数据二十条”2022年美国促进数字隐私技术法案等 产业方面,开源项目如FATE,Mesa开始商用和落地0增长期(2017-2025)隐私计算开始在实际应用中发挥重要作用,技术不断成熟,应用规模将呈现稳定增长趋势 隐私计算在技术上将迎来一系列创新迭代,各个主流技术路线持续优化,业内探索技术融8、合等方式来突破应用瓶颈0稳定期(2025至未来)隐私计算技术的四个发展阶段2024全球隐私计算报告隐私计算技术市场前景广阔政策法规支持,产业需求增加技术加速创新并与区块链、人工智能等新兴技术融合相关技术标准和产业规范逐步完善、产业链完整、应用扩展隐私计算在金融、通讯、政务、医疗、保险等产业应用更广泛产业链从上游的可信硬件,到中游的技术提供方,再到下游的应用方,已形成较完整的生态应用扩展、产业链融合数据来源:亿欧,国泰君安,36氪研究院整理金融53%通信17%政务13%医疗9%互联网5%能源3%隐私计算生态包括数据提供方、数据加工方、数据使用方、服务商与交易所等开源产品目前是生态中的主流 产业需9、求增加企业和个人需求日益增长,有巨大市场空间数据来源:36氪研究院根据公开资料整理2024全球隐私计算报告人工智能技术的发展2023-2024年间,AI在技术创新、政策法规与应用投资等方面均取得较大进展。目前60个国家拥有AI战略,预计生成式AI每年将为全球经济贡献4.4万亿美元。2023年,具有开放许可证的日益高效的基础模型呈爆炸式增长,比2022年增加一倍以上,新模型如:LlaMa、StableLM、Falcon、Mistral、LlaMa 2、DeepFloyd 和 Stable Diffusion等 以ChatGPT为代表的新一代生成式人工智能问世,在全球范围大火,改变了人工智能(AI10、)技术与应用的发展轨迹,加速了人与AI的互动,是人工智能发展史上的新里程碑GPT-4、Gemini、Gemini Ultra和 Claude 3等先进模型展示出强大的多模态能力,综合性能优越技术创新2023 年人工智能相关法规 25 项欧盟AI法案(EU AI Act,2024):全球首个全面的AI法律框架,基于风险分类对高风险AI系统设置了严格的监管美国AI权利法案(AI Bill of Rights):防止AI系统中的歧视,确保算法透明性和隐私保护中国AI监管法案:加强对AI技术的监管,特别是涉及国家安全风险的应用,如生物识别和监控技术。加拿大人工智能和数据法案(AIDA):重点强调数据隐11、私和AI的伦理使用,如金融和保险领域其他国家和地区:南韩South Koreas AI Framework Act;巴西Brazils AI Regulation Bill;印度Digital India Act政策法规支持麦肯锡2024年调查发现,在过去六年中,全球的 AI 采用率2019年之前一直在50%以下,2023年跃升至72%;生成式AI采用率从2023年的33%增加到2024年的65%,几乎翻了一倍。超过60%的中国企业计划在未来1-2年内部署生成式AI2023年对生成式AI的投资激增,达到252亿美元,比2022年增长近八倍应用和投资规模扩大2024全球隐私计算报告隐私计算与人工12、智能的技术融合AI大模型在创造巨大价值的同时,可能带来明文训练数据被泄露或个人信息被滥用等安全和隐私风险,隐私计算技术通过提供安全计算环境,可以有效降低这些风险。2019年,微众银行人工智能团队发起了全球首个联邦学习工业级开源框架FATE,可以让企业和机构在保护数据安全和数据隐私的前提下进行数据协作,核心功能包括联邦特征工程,联邦统计,联邦机器学习,联邦深度学习,联邦迁移学习等2024年,蚂蚁集团发布“隐语 Cloud”大模型密态计算平台,提高大模型密态托管和大模型密态推理服务产业界进展增强的模型安全性:隐私计算技术可以增强AI模型的安全性,防止模型被恶意攻击或篡改。例如,使用同态加密技术可以13、在加密状态下对数据进行处理,确保模型训练和预测过程的安全性,使用联邦学习、差分隐私等技术可以在不暴露原始数据的情况下训练模型技术融合与创新:隐私计算与AI技术的融合将催生新的技术路线和创新应用。例如,结合区块链技术可创建更透明、可追溯的数据处理流程,促进跨域数据合作性能优化:当前隐私计算和AI技术面临的一个挑战是性能问题,尤其是在处理大规模数据时。随着算法和硬件的优化,隐私计算和AI技术的性能将有望得到显著提升,从而更好地支持AI应用产业定制化解决方案:不同产业对隐私计算和AI技术的需求不同。未来将出现更多针对特定产业需求的定制化解决方案,如医疗健康、金融风控等专用隐私平台AI伦理和合规性:通14、过确保数据处理过程符合隐私保护要求,隐私计算可以帮助AI技术更好地适应法律法规,解决AI应用中的伦理和合规性问题未来发展方向2024全球隐私计算报告Part Two2024隐私计算产业图谱第二章2024全球隐私计算报告2024隐私计算图谱场景应用金融政务交易所通信综合服务商隐私计算垂直类服务商隐私计算融合类服务商AI区块链信息安全硬件服务商开源服务商软硬一体机服务商通用硬件服务商专精服务商2024全球隐私计算报告医疗国内外隐私计算垂类服务商分析隐私计算垂类服务商正在快速成长,国外企业专注技术研发,在技术层面取得较多成果;国内企业技术研发和商业化落地协同发展。公司名称要点技术能力擅长领域应用场景15、国外ZamaConcrete,Concrete-ML金融、医疗、区块链提供隐私保护应用程序开发,支持机器学习和其他计算任务InpherSecret Computing,SecurAI金融、医疗安全计算,跨组织数据孤岛协作,大语言模型推理Eaglys隐私增强技术,MPC和安全多方数据分析平台金融、医疗数据安全共享和协作Cape Privacy保密计算技术,API医疗、金融数据去识别化和重新识别,安全文档处理Pyte.ai加密状态下的机器学习工具集医疗、金融加密状态下训练和推理模型Cryptolabs安全多方计算(MPC),区块链安全金融、区块链多方协作计算,智能合约安全国内杭州金智塔科技有限公司16、隐私计算平台、数据合规流通平台、容器计算平台、数据资产登记平台等政务、金融、零售、制造业政公共数据授权运营、智能风控、反欺诈、智能营销、智能选址、智能制造等浙江蚂蚁密算科技有限公司以密态计算技术创新应用及开源社区共建赋能可信数据要素流通建设政务、金融、医疗、互联网公共数据开放、密态医疗大模型、密态大模型知识库、智能风控、车险定价等神州融安数字科技(北京)有限公司融安隐私计算平台、融安隐私计算一体机保险、公安、营销医保智能风控业务、银行营销用户画像及标签等2024全球隐私计算报告安全多方计算隐私保护广告位集合竞价平台(Meta)利用MPC技术完成用户浏览页面广告位的隐私保护集合竞价。隐语Secr17、etFlow安全计算框架(蚂蚁)同态加密HElib全同态加密库(IBM)首个开源实现全同态加密算法(BGV 算法)提供密文自举代码实现。但使用成本高,代码缺乏维护。Concrete全同态计算框架(ZAMA)提供密文自举代码实现(TFHE 算法)。前端兼容科学计算库Numpy。实现零成本编写同态应用。差分隐私TensorFlow Privacy框架(谷歌)提供用于训练差分隐私模型的工具。提供跟踪和管理隐私预算功能。Privacy-Preserving Data Analytics(Uber)利用差分隐私与匿名化技术。帮助公司在处理用户乘车数据时保护隐私,同时进行交通流量和其他分析。联邦学习FAT18、E联邦学习框架(微众)支持多种机器学习模型联邦建模。社区多达 570 家企业参加(2021年)但 代码性能低(Python)。JaxFed计算库(谷歌)通过提供相关组件提高编写和部署联邦学习算法效率。支持TPU、GPU等硬件加速。可信执行环境Occlum TEE系统(清华&蚂蚁)高易用性,只需要少量修改程序源码即可在TEE上执行。高性能,支持多TEE任务同时高效执行。“翠湖”安全处理器和全同态协处理器(中关村实验室)自研 TEE,高性能密态计算能力,支持主流全同态加密算法与52种全同态加密算子的硬件加速,比软件性能提升200倍以上。国内外隐私计算产品概况统一前端编写成本低加入中间层解耦前后端易19、于扩展新协议。2024全球隐私计算报告隐私计算技术开源情况n开源促进了隐私计算的快速发展开源技术可以有效促进隐私计算技术的发展、普及及应用推广,开源项目降低了隐私计算产业门槛,从而进一步促进产业的发展与繁荣。n开源提升了隐私计算平台的安全性在隐私计算领域,安全性是核心关切。开源社区的代码透明、审查公开,用户可以检验和监督平台的安全性。这种开放性有助于及时发现并解决产品中的潜在安全问题。n国内外开源隐私计算技术与应用不断涌现,包括微软、蚂蚁集团、原语科技、UC伯克利、复旦大学等国内外企业与高校推出多个隐私计算开源项目,进一步促进隐私计算技术普及、应用和发展。国内开源隐私计算技术由蚂蚁集团研发的开20、源可信隐私计算框架,以安全、中立、易用为核心设计理念,用一套通用框架支持了包括安全多方计算(MPC)、联邦学习(FL)、同态加密(HE)、可信执行环境(TEE)以及差分隐私(DP)在内的多种主流隐私计算技术,是国内生态影响力最大的开源社区,技术方案最为齐全的隐私计算框架之一。由微众银行开源的联邦学习开源项目,提供了一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的安全计算支持。由复旦大学Daslab实验室韩伟力教授及其学生独立研发的开源安全多方学习平台,是基于BGW协议的开源安全多方学习框架。由原语科技研发的开源可信隐私计算平台,该平台融合了安全多方计算(MPC21、)、联邦学习(FL)、同态加密(HE)、可信执行环境(TEE)等多种隐私计算技术。国外开源隐私计算技术由CSIRO Data61 Engineering&Design机构Marcel Keller独立维护,支持安全多方计算(MPC)及同态加密(HE)隐私计算技术。由微软开源的安全多方学习框架,针对安全推理场景提供了相对完备的安全级别定义,相关研究工作自成一体,是安全多方学习框架中安全推理场景的标杆之一。EzPC由UC Berkley Rise实验室维护安全多方学习框架,主要通过GPU对本地密文计算进行加速,提高本地运算效率,是隐私计算领域中使用GPU加速本地密文计算的先行者。由Zama公司开发22、的Concrete和Concrete-ML框架,是由Rust编写的FHE框架,旨在让密码学家和开发人员能够以最小的开销创建隐私保护应用程序。Zama 2024全球隐私计算报告Part Three隐私计算技术演进和融合第三章2024全球隐私计算报告隐私计算技术演进与融合-总体进展020406080100120140160MPCZKPPSI&PIRFHEDPTEE2024年发表数量2023年发表数量2023-2024年各类隐私计算论文发表数量2023-2024年各类隐私计算论文占比MPC33%ZKP28%PSI&PIR11%FHE10%DP12%TEE6%说明:MPC中除去PSI、PIR相关工作说23、明:MPC中除去PSI、PIR相关工作数据来源(安全和密码学顶级会议):IEEE S&P 2023、2024USENIX Security 2023、2024ACM CCS 2023、2024NDSS 2023、2024CRYPTO 2023、2024EUROCRYPT 2023、2024ASIACRYPT 2023技术分类:MPC:Secure Multi-Party Computation 安全多方计算ZKP:Zero-Knowledge Proof零知识证明FHE:Fully Homomorphic Encryption 全同态加密DP:Differential Privacy 差分隐私24、TEE:Trusted Execution Environment 可信执行环境PSI:Private Set Intersection隐私集合求交PIR:Private Information Retrieval 隐私信息查询2024全球隐私计算报告安全多方计算MPC研究动态18%6%3%5%4%9%9%4%13%4%25%(门限)加密/签名混淆算法相关随机数非平衡场景可追责性轮数复杂度/非交互通信复杂度计算复杂度应用实现其他MPC论文分类统计统计了2023与2024年发表在四大安全会议(CCS,USENIX Security,IEEE S&P,NDSS)和三大密码学会议(CRYPTO,EU25、ROCRYPT,ASIACRYPT)的关于MPC的论文,共144篇。截至本报告写作之时,ASIACRYPT 2024的论文尚未公布,因此未加入统计。有些论文同时属于多个类别。门限加密/签名算法、混淆算法是MPC中经典的研究课题。门限方案允许一组参与方分享密钥,超过个参与方能够对消息进行解密/签名;混淆算法起源于经典的姚氏混淆电路。关于Schnorr、BLS、BBS+、ECDSA等签名算法的研究数量较多。关注点包括:签名的轮数复杂度、抵御适应性敌手的能力、底层假设、在实际场景下的健壮性等。关于混淆算法的研究聚焦于:算法的性能、算术电路/算术-布尔混合电路的混淆算法。MPC的论文也关注一些特殊场景26、下的有趣问题,包括:相关随机数的生成、非平衡场景MPC、可追责MPC。相关随机数通过离线阶段的预处理,使协议的在线阶段取得巨大的性能提升。非平衡场景有:星型网络拓扑场景、算力非平衡场景、参与方权重不同场景等。可追责MPC协议能够在运行失败时识别出作恶的参与方,大大增加参与方的作恶成本。理论界,关于MPC协议的轮数复杂度(或非交互式计算)、通信复杂度以及计算复杂度也受到了广泛的研究。对于不同的目标/模型,研究者证明复杂度下界或设计线性/亚线性复杂度的高效协议。一些反直觉的结论:例如,Lin等人通过对输入的预处理,使得参与方在承诺、零知识证明、MPC协议中甚至不需要读取整个输入,达到亚线性的在线时27、间复杂度(Doubly Efficient Cryptography:Commitments,Arguments and RAM MPC)。MPC的在各场景下的应用以及高效实现,同样受到业界人员的广泛关注。研究最多的是MPC在机器学习/深度学习中的应用,其他的例子包括:使用MPC进行时间序列分析、认证、网络服务、密钥管理、动态数据库分析等等。MPC落地实现方面,研究包括:(布尔-算术-姚)混合模式MPC、有协助者的MPC、MPC编译器等。其中,Silph是一个能自动将高级程序语言程序编译成混合MPC协议的框架(Silph:A Framework for Scalable and Accurat28、e Generation of Hybrid MPC Protocols)。各研究方向进展2024全球隐私计算报告可信执行环境研究动态可信执行环境(Trusted Execution Environment,TEE)是软硬件协同构成的隔离环境,可以保护敏感数据并执行隐私计算。常用的TEE技术技术分类与论文数量 Intel SGX、Intel TDX、AMD SEV和ARM TrustZone攻击36%防御28%应用25%构建11%技术分类:攻击、防御、应用、构建;安全类顶级会议相关论文总数 28篇。各研究方向进展Schaik等人的综述性文章发现,现有的Intel SGX更新策略无法帮助开发人员29、即时修复安全漏洞多篇文章利用数据竞争攻击、指令计数攻击、恶意#VC中断、总线故障攻击等攻击方式,成功攻破了现有的商用可信执行环境潜在安全隐患AEX-Notify解决方案已被纳入Intel SGX修订版规范SymGX发现多个零日漏洞,并获开发者确认防御和漏洞探测手段EnigMap通过在外部存储和飞地间建立隐蔽映射,实现了大规模数据的安全高效处理Drre等人利用不完全可信的可信执行环境构建了高效隐私集合求交协议,其中可信执行环境可能受到侧信道攻击,或是将信息泄露给硬件制造商Gramine-TDX基于Gramine项目和Intel TDX,专门为机密虚拟机设计了轻量级操作系统隐私计算和可信应用开发M30、yTEE通过制作页表进行内存隔离、过滤DMA数据包以及启用安全IO,在嵌入式设备上实现了可信执行环境新型可信执行环境开发2024全球隐私计算报告零知识证明研究动态应用方面进展理论进展ZKVM(零知识证明虚拟机)。使用高级语言编写的程序可以自动生成零知识证明。Dora是专为ZKVM设计的高效零知识证明协议,它很好的平衡了指令数量和指令复杂度,使得向处理器添加指令的开销几乎为零。另一个新奇的ZKVM实现途径是,使用定制的零知识证明系统,证明在Satisfiability Modulo Theories(SMT)范式下的各种等式,如布尔逻辑。Folding Scheme。Nova是为IVC(incr31、emental verifiable computation)专门设计的零知识证明方案。其本质是一种高效的算术化表示方法,通过对约束系统的不断压缩,只需验证一次,大大减少了开销。SuperNova处理了每次调用函数不同时的情况,同时运行多个folding实例,根据调用的不同,更新相对应的实例。而HyperNova适应于最新的算术约束系统CSS(customizable constraint system),并使用了名为CycleFold的技术,使得证明方案能在一对循环曲线上进行高效的递归。Post Quantum。后量子安全的零知识证明方案一直是研究的前沿方向,基于格的零知识证明方案近两年在实32、用性上得到了较大的突破。其中,LaBRADOR证明系统通过基于格的递归摊销R1CS证明系统,实现了证明大小优化,其证明大小仅由递归的最后一步决定,与初始R1CS实例的大小无关。Greyhound是第一个基于标准的格假设的多项式承诺方案,当多项式的度高时,其evaluation证明大小较小,达到了实用的程度。分布式。减少零知识证明高昂的证明开销、将证明过程并行或者分布式是现实的需求。Pianist是一个基于Plonk的高效分布式零知识证明协议,为并行电路和通用电路都设计了并行化方法。该框架包含了一个分布式的多项式IOP协议和一个可分布式计算的多项式承诺方案。Collaborative零知识证明系33、统中,证明者会分发证明任务给多个子证明者,其他证明者会协作生成证明。ZKSaas是一个典型代表,其证明者可以通过秘密分享技术,让一组其他证明者通过安全多方计算的方式,安全生成证明,而不会泄露隐私信息。ZK数据库。零知识基本数据库(ZK-EDB)使得证明者能够对数据库(其中包含(,)对的键值)进行承诺,并随后为“发送与相关联的值()”的查询提供令人信服的答案,而不会泄露任何额外的知识。其技术贡献有两方面。首先,引入了一种支持集合合并操作的新型零知识集(ZKS),并给出了一个基于未知阶群的实际构造。其次,开发了一种将布尔电路查询转换为相关集合合并操作查询的变换。ZK隐私保护。在区块链研究中,实现隐34、私保护的审计而不牺牲系统的安全性和可信性是一个关键的研究领域。zkCross,这是一种新颖的双层跨链架构,配备了三种跨链协议,以实现隐私保护的跨链审计。其中,两个协议分别用于隐私保护的跨链转账和交换,第三个协议则是高效的跨链审计协议。这些协议基于坚实的跨链方案,以保证隐私保护和审计效率。ZK投票。为了保证电子投票中没有选票被添加、遗漏或更改,使用零知识证明来提供公开可验证的证明,证明输出的选票是输入选票的重新加密的排列。通过Coq证明助手对Bayer-Groth洗牌证明的安全性进行了机器检查。随后提取了验证器(软件),用于检查Bayer-Groth实现生成的证明,并使用该验证器对正在为瑞士国家35、选举开发的瑞士邮政电子投票系统的证明进行检查。ZK身份验证。对于许多用户来说,基于私钥的钱包是进入区块链的主要方式。常见的钱包认证方法可能会显得繁琐。这种用户入门的难度显著阻碍了区块链应用的普及。zkLogin,这是一种新颖的技术,利用由流行平台(如启用OpenID Connect的平台,例如Google、Facebook 等)发行的身份令牌来认证交易。zkLogin 提供了强大的安全性和隐私保障。然而,与之前相关的工作不同,zkLogin避免了额外的受信方(如受信硬件或预言机)来提供其安全保障。zkLogin利用零知识证明确保用户的链下身份和链上身份之间的链接被隐藏,甚至对平台本身也是不可见36、的。zkLogin 核心的签名方案使得在区块链之外进行许多重要应用成为可能。零知识证明(zero-knowledge proof,ZKP)是一种密码学技术,其中证明者能够向验证者证明某一陈述为真,但在此过程中,除了该陈述的真实性外,验证者无法获得任何额外的信息。2024全球隐私计算报告PSI&PSU&PIR研究动态PSI类型文献数标准PSI11电路PSI2模糊PSI2阈值PSI1结构感知PSI2据PSI类型统计文献数PIR研究方向文献数效率优化16抗恶意性4隐私性2批量PIR2其它4根据PIR研究方向统计文献数共有5篇文献对PSU进行研究,主要聚焦于新的PSU协议框架,以及对非平衡PSU的优化37、。PSI,即隐私集合求交,要求两方或多方在不泄露额外信息的前提下得到集合的交集。大多数文献的研究聚焦于标准PSI,关注点包括安全性、通信效率、计算效率。安全性方面,Drre等人提出能够在含有侧信道的可信执行环境(TEE)下安全运行的PSI协议。通信效率方面,Bienstock等人通过对不经意键值存储(OKVS)进行改进,优化了键值对编码效率。在计算效率上,Kerschbaum等人提出在离线阶段执行昂贵操作的比较协议,可用于PSI协议并提高响应速度。此外,许多研究关注不平衡场景这在实际应用中更为常见。例如,Sun等人对个多客户端与服务器分别独立执行PSI协议的场景进行了优化,使每个客户端的执行协38、议的复杂度与自身集合大小呈线性关系。除标准PSI外,许多文献关注PSI的变体,例如电路PSI,模糊PSI,阈值PSI,结构感知PSI。电路PSI的输出是集合交集的秘密分享,允许参与方基于集合交集做进一步的计算,而交集本身对两方保密。Hao等人提出了不经意键值检索(OKVR),并据此构建了高效的不平衡电路PSI方案。模糊PSI将“距离接近”的两个元素视作相同元素匹配。Chakraborti等人提出DA-PSI返回在距离阈值内的匹配。阈值PSI仅在交集大小高于阈值时获得交集,Liu等人在阈值PSI的基础上提出了多方概率阈值PSI,以较小概率的不良事件为代价,换取了协议的高效性和可扩展性。结构感知P39、SI(sa-PSI)由Garimella等人在2022年提出,其中一方持有的集合为公开的结构,近年来Garimella等人又对sa-PSI在抗恶意性和计算开销等方面进行了优化。PIR,即隐私信息检索,指用户向服务器提交查询请求时,在用户查询隐私信息不被泄漏的条件下完成查询。多数文献聚焦于PIR在效率上的优化,关注点包括:底层假设、预处理、计算外包。底层假设方面,Lazzaretti等人提出了基于DDH假设的双服务器PIR协议,在性能上优于前人基于LWE的构造。许多研究通过使用预处理方式,增加查询的响应速度。例如,Ghoshal等人分别在双服务器和单服务器上提出了新的预处理PIR方案,有效降低了40、在线带宽。此外,Li等人通过将计算中昂贵的部分“外包”给服务器,同样对PIR查询的效率进行了优化。一些文献则更加关注协议的抗恶意性与隐私性。例如,Park等人提出了容忍至多两个恶意节点的高性能多服务器PIR方案;Dietz等人提出了抗恶意的、允许查询中途终止的PIR协议。一些文献对批量PIR进行了研究。Mughees等人提出了计算和通信效率都较高的批量PIR协议,Liu等人提出了支持批量查询的PIR协议PIRANA,且该协议对数据库频繁更新的场景更加友好。2024全球隐私计算报告FHE论文分类统计全同态加密(FHE)研究动态95341112其他应用机器学习标准化研究安全性分析算法改进Boots41、trapping统计了2023与2024年发表在四大安全会议(CCS,USENIX Security,IEEE S&P,NDSS)和三大密码学会议(CRYPTO,EUROCRYPT,ASIACRYPT)的关于MPC的论文,共44篇。截至本报告写作之时,ASIACRYPT 2024的论文尚未公布,故未加入统计。各研究方向进展优化Bootstrapping提升FHE的计算效率Bootstrapping作为FHE中的关键操作,用于恢复加密数据的精度通过优化盲旋转操作、使用小型评估密钥来优化FHEW的Bootstrapping过程基于SIMD技术的Batch Bootstrapping框架将FHE乘法42、操作的需求减少到常数级别对于经典FHE加密方案BGV、BFV、CKKS的Bootstrapping过程也有不同方式的优化优化同态运算的速度提升FHE的计算效率对密钥分解、多项式计算、矩阵向量乘法进行优化.研究者们提出了一种基于LWE问题的简化门限FHE加密方案FHE的安全性分析精确FHE方案(如BFV、BGV和TFHE)也容易受到攻击提出了一种改进的FHE方案,通过引入可验证性机制,超越了传统IND-CCA1安全性模型提出了PELTA机制,通过零知识证明和一系列的验证机制抵御恶意参与者的攻击FHE的标准化统一的中间表示方法HEIR、新型的明文编码方案VERITAS、专为FHE设计的编译器HEC43、OFHE在机器学习领域的应用在深度神经网络、在卷积神经网络、算法方面提高了计算效率神经网络推理方面提出了一种创新的方法NeuJeans,通过联合优化卷积操作和Bootstrapping,解决了隐私保护神经网络推理中的效率问题。FHE的其他应用转密、PSU、数据存储与检索加速FHE运算的硬件加速器、高效可扩展的数据库系统、利用同态加密的单服务器PIR方案.量子全同态方案的安全性和实用性产生了重要的改进2024全球隐私计算报告差分隐私DP研究动态新DP定义,4DP应用,9DP结合其他技术,4DP-SGD相关研究,5DP理论研究,13本地DP,6其他,7 主要集中在用户级差分隐私和本地差分隐私。用户44、级差分隐私:Dong等人研究了针对用户级差分隐私的持续观察机制,这些机制无需对数据进行先验限制,并在效用上接近静态情况的最优值。本地差分隐私:基于链接的局部差分隐私方法,可以保护图中链接的隐私;针对本地差分隐私频繁项集挖掘协议的数据投毒攻击;首个在本地差分隐私下进行数据挖掘任务的方法LDP-RM;优化局部差分隐私协议中的频率估计问题的卷积框架等。DP论文分类统计研究热点各研究方向进展针对差分隐私的定义,可提出新的模型,并定义新的差分隐私算法,使其满足差分隐私定义,且有某些方面的改进与提升。Ji等人提出的R1MSG机制,通过使用一种特殊的低秩协方差矩阵,显著降低了精度损失,且能生成更稳定的噪声。45、差分隐私的应用或是差分隐私与其他隐私计算技术结合后的应用,得到了研究者广泛关注。差分隐私与零知识证明:Biswas等人提出了一种可验证的差分隐私计数查询机制,要求发布方生成零知识证明,确保输出既符合差分隐私,同时又能保证不暴露任何随机性信息。差分隐私与安全多方计算:Wei等人将差分隐私用于安全多方计算,可以较快地生成安全参数较高的离散高斯样本。差分隐私与联邦学习:跨机构联邦学习中实现记录级个性化差分隐私的rPDP-FL框架、PrivateFL方法改进了差分隐私用于联邦学习时的精度下降。差分隐私与机器学习:评估不同的差分隐私算法在图像分类任务中的效用和抵御成员推理攻击的能力的评估工具DPMLBe46、nch、模型在面对差分隐私引入的噪声时能够保持更好的性能的新技术DPAdapter,还有一些差分隐私用于机器学习的新算法等。其他:差分隐私应用于侧信道的研究、差分隐私与其他数学模型结合等。有部分研究对经典的DP-SGD算法进行了更深入的分析,比如“数据依赖”分析、验证该算法的信息泄露、研究该算法梯度裁剪引入的偏差等。也有研究工作提出了更好的算法,比如Du等人提出了一种通过在语言模型前向传播中直接扰动嵌入矩阵的差分隐私方法DP-Forward,与DP-SGD相比减少了计算和存储成本;Feng等人提出了Spectral-DP算法,结合频域梯度扰动和频谱滤波,通过降低噪声规模以提高效用。差分隐私理论47、方面的研究也有不少进展:在差分隐私的预算方面,近两年的研究工作研究了如何解决预算管理不足、如何有效分配预算等问题。其他工作研究了差分隐私中最优随机化的构建、错误界限改进、差分盲目性改进、审批机制改进、差分隐私和自适应数据在空间复杂度上的差异分析等问题。2024全球隐私计算报告联邦学习FL研究动态隐私保护与差分隐私技术,3中毒攻击和后门攻击的防御,12分布式模型更新和安全聚合协议,4联邦学习鲁棒性和稳健性,2个性化联邦学习和定制防御,6其它,13*统计了2023与2024年发表在四大安全会议(CCS,USENIX Security,IEEE S&P,NDSS)上关于FL的论文,共36篇。截至本报48、告写作之时,ASIACRYPT 2024的论文尚未公布,因此未加入统计。有些论文同时属于多个类别,分类时存在重叠。FL论文分类统计各研究方向进展联邦学习的隐私保护是其主要优势之一,差分隐私(DP)技术已经被广泛应用于保障用户数据的安全。然而,DP带来的精度损失和对异质性数据的影响仍是待解决的挑战例如,Yang等人通过个性化数据转换减少了差分隐私引入的异质性,从而提高联邦学习模型的精度。Jiang等人提出了标签分布扰动机制,实现个体隐私和标签分布隐私的双重保护 联邦学习容易受到中毒攻击和后门攻击威胁,攻击者可以通过恶意客户端修改模型更新。现有的防御机制主要通过检测恶意更新、限制更新空间或引入认证49、机制来提高鲁棒性例如MESAS、RoFL、FedVal、FreqFed、CrowdGuard、AutoAdapt、BackdoorIndicator、3DFed、BayBFed、FedRecover等多种防御框架被提出,被用于攻击检测、自适应工具防御、后门攻击等各种复杂场景之下的攻击防御。联邦学习中的分布式模型更新和聚合协议旨在确保客户端更新的隐私,同时抵御恶意客户端的攻击。现有方法如安全聚合协议、基于概率的检测机制提供了初步的解决方案,但面临通信成本和计算效率的挑战。例如,Ma等人提出 Flamingo协议,引入轻量级丢弃容错机制,显著提高了训练效率,同时保持模型准确性。Rathee等人提出50、了ELSA安全聚合协议,专注于应对恶意行为者的存在,并通过创新的分布式信任机制保证了客户端更新的隐私和防御恶意客户端。联邦学习的鲁棒性设计旨在防御恶意更新和各种对抗性攻击。现有研究提出了基于认证、评分和排名的机制来提高FL模型的稳健性。例如Xie等人探讨了差分隐私与中毒攻击认证鲁棒性之间的内在联系。通过用户级和实例级差分隐私的形式分析,研究提供了两种鲁棒性认证标准,并展示了如何在提高隐私保护的同时增强认证攻击的无效性。Fang等人提出BALANCE算法,并通过理论和实验结果证明了该算法在面对中毒攻击时的有效性。个性化联邦学习(PFL)允许每个客户端根据自身的局部数据分布定制模型,提升个体性能。51、然而,这种个性化也为潜在攻击者提供了新的攻击向量,特别是后门攻击等复杂威胁。例如,Lyu等人探讨了个性化FL中的潜在后门攻击,提出了PFedBA攻击策略,通过优化触发器生成过程有效规避现有防御机制。Xu等人提出ACE攻击,展示了恶意客户端如何通过操控本地模型参数提升自身的贡献评估,并探索了六种防御措施,结果显示这些防御不足以阻止ACE攻击。010102020303040405052024全球隐私计算报告联邦学习未来发展趋势FL的应用场景正在不断扩大,研究者正致力于开发更加智能和自适应的防御机制来应对复杂的攻击。去中心化和个性化隐私保护技术、激励机制、分布式架构优化等也将成为未来研究的重点,发展52、趋势如下:未来的FL系统需要更智能的差分隐私应用,以在不显著影响模型性能的前提下提高隐私保护的能力。个性化隐私保护方案将是一个重要的发展方向。隐私保护技术的进一步发展FL中的攻击防御需要应对越来越复杂的自适应攻击,特别是针对后门攻击和中毒攻击。新的防御策略应具备动态适应不同攻击模式的能力。增强攻击防御能力随着FL应用场景的扩大,如何在大规模分布式系统中高效地进行安全聚合将成为一个关键问题。未来的研究可能会探索更加轻量化且鲁棒的协议设计。高效、安全的聚合协议个性化模型训练与全局鲁棒性的平衡将是未来的研究重点。个性化技术将继续发展,尤其是在保护安全的同时提高本地模型的性能。个性化与鲁棒性的平衡2053、24全球隐私计算报告Part Four 隐私计算产业应用分析第四章2024全球隐私计算报告隐私计算产业市场分析隐私计算产业资本热度有所降低,但随着应用加深,新的增长机会不断涌现,市场规模仍会持续增长。隐私计算市场规模/招标数量050100150200250020406080100120140160202120232025e个市场规模招标项目数趋势分析受整体经济环境,隐私计算产业资本热度有所降低,资本逐渐回归理性。随着隐私计算技术成熟度和产业认知度逐渐提升,隐私计算产业仍处于快速增长阶段,预计市场规模将进一步扩大。数据来源:中国信通院、2023全球隐私计算报告增长机会隐私计算技术与前沿技术不断融54、合,隐私计算技术与AI、云计算、区块链等技术深度融合,多种技术融合的应用解决方案已逐渐成为各场景的主要技术应用模式,持续提高数据安全性和隐私性。隐私计算应用场景不断深化,隐私计算在金融、医疗、政务、人工智能等业务场景不断深化,各个业务场景均需多方数据的可信流通,实现数据价值释放。数据要素流通促进隐私计算不断发展,随着各地公共数据授权运营机制逐渐完善,各方数据用户意识到隐私计算成为必需投入的内容。亿元/人民币隐私计算技术与前沿技术不断融合,隐私计算技术与AI、云计算、区块链等技术深度融合,多种技术融合的应用解决方案已逐渐成为各场景的主要技术应用模式,持续提高数据安全性和隐私性。隐私计算应用场景不55、断深化,隐私计算在金融、医疗、政务、人工智能等业务场景不断深化,各个业务场景均需多方数据的可信流通,实现数据价值释放。数据要素流通促进隐私计算不断发展,随着各地公共数据授权运营机制逐渐完善,各方数据用户意识到隐私计算成为必需投入的内容。2024全球隐私计算报告典型案例:Apple-Private Cloud Compute平台Private Cloud Compute是2024年Apple推出的云计算平台,旨在提供强大的计算能力,同时确保用户数据的隐私和安全。这个平台标志着Apple在隐私保护领域的进一步创新。该平台是Apple基于其强大的隐私保护传统,构建的一个全新云计算架构。它将iPhon56、e等本地设备上已有的隐私保护措施扩展到了云端计算环境中。该平台的设计理念是通过确保数据隐私,使用户可以在不暴露个人数据的前提下,享受人工智能和云计算技术带来的智能服务。隐私成为云端智能计算的核心竞争力在日益重视隐私的时代,Private Cloud Compute提供了一种新模式,确保在享受云计算带来的强大智能时,用户的隐私和数据安全不会受到侵犯。这一模式使Apple成为了产业内隐私保护领域的标杆。打破“隐私与智能化无法兼得”的认知传统上,用户常常认为要想获得智能化的服务,必须牺牲部分隐私,而Apple的Private Cloud Compute平台通过技术创新打破了这种矛盾,使得用户能够在不57、损害隐私的前提下,享受与日俱增的智能服务。推动产业隐私保护标准提升Private Cloud Compute的推出推动了云计算和AI产业的隐私保护标准,促使更多公司关注用户数据隐私问题,进一步推动了全球数据 隐私保护法律法规的落实。适应AI时代的数据需求AI需要大量数据进行训练和推理,而如何在不泄露隐私的前提下处理这些数据是一个巨大挑战。Private Cloud Compute提供了一个新的解决方案,允许AI技术继续进步的同时,不必担心用户隐私泄露。案例亮点平台意义n 本地级别的隐私保护扩展到云端Private Cloud Compute将Apple在设备端的隐私保护技术(如差分隐私、设备端58、处理、端对端加密等)无缝扩展到云端。这样,用户的数据即使在云端进行处理,依然享有与本地设备上同等的隐私保护。n 加密处理与计算平台采用先进的同态加密和多方安全计算技术,确保数据在加密状态下依然可以进行处理和分析。这意味着即使在云端,数据也不会被解密,从而实现完全的数据隐私保护。n 差分隐私技术Private Cloud Compute平台利用差分隐私技术,通过在数据中加入噪声确保单个用户的隐私。即使大量数据被用于AI训练或统计分析,个人数据仍然难以被识别或追踪。n 个性化与隐私的平衡用户可以通过平台享受个性化服务,比如广告推荐、智能助手等,而这些服务不需要实际读取或存储用户的个人数据。所有个性59、化推荐和分析均在加密数据上完成,保护了用户的隐私。n 端到端加密保障所有用户与云端之间的数据传输都经过端到端加密,确保数据在传输过程中无法被窃取或篡改。无论是用户的输入还是云端计算的输出,Apple都保证数据始终处于加密状态。2024全球隐私计算报告典型案例:Firefox-Privacy-Preserving AttributionPrivacy-Preserving Attribution(PPA,隐私保护归因)平台是一种基于隐私保护技术的归因分析解决方案,主要用于在线广告和数据分析。对于用户数据隐私问题,PPA在不侵犯用户隐私的情况下,提供高效、准确的归因和分析功能。该平台利用安全多方计60、算、同态加密和差分隐私等技术,确保用户数据始终加密或混淆,甚至连运营方也无法访问。PPA通过去中心化的数据处理机制,避免用户行为数据集中在少数公司手中,增强了数据处理的安全性和分析的透明度与公平性,同时遵守严格的数据隐私法规。保障用户隐私在数字化时代,用户数据成为了最重要的资源之一,如何保护用户隐私不被滥用是整个产业的难题。PPA平台通过技术手段在不获取用户原始数据的前提下,实现高效的数据归因,解决了隐私保护与数据利用之间的矛盾,极大提高了用户对广告和数据分析平台的信任度。推动合规发展随着各国对数据隐私监管的不断加强,企业面临的合规压力日益增大。PPA平台的隐私保护机制使其能够适应全球范围内不61、同的隐私法律要求,帮助企业规避法律风险。同时,该平台也促进了隐私保护技术的应用和发展,推动了整个产业的合规进程。提升数据利用效率通过隐私保护技术,PPA平台解决了以往归因分析中的数据孤岛问题,使得不同平台的数据可以安全共享与交互,最终提高了数据利用的效率和归因分析的准确性。这对于广告主来说,意味着可以更好地评估广告投放效果,优化营销策略,最大化广告投入回报率。产业创新的标杆作为一种新型的隐私保护解决方案,PPA平台树立了产业创新的标杆。其应用不仅局限于广告归因,还可以扩展到金融、医疗等需要保护隐私的产业,具有广泛的应用前景。案例亮点平台意义n 隐私保护为核心PPA平台的最大亮点在于其隐私保护技62、术。通过安全多方计算、差分隐私等技术,即使是平台运营方或广告主也无法获得用户的真实数据,确保了用户隐私的高度安全性。这种隐私保护的特性使得PPA平台在欧盟的GDPR、美国的CCPA等严格的隐私法下仍然能合法合规地运营。n 多方参与的数据处理平台采用了分布式数据处理模式,保证了数据的多方所有权,消除了数据集中带来的隐私风险。此外,各个数据所有方只参与归因分析,而不暴露任何原始数据,这种分布式计算模式大大降低了潜在的数据泄露风险。n 数据归因的精确性和实时性尽管隐私保护措施使数据处理复杂化,但PPA平台在保证隐私的同时,仍然能提供高精度的归因分析结果。广告主能够通过该平台实时跟踪广告投放效果,了解63、用户行为路径,从而优化广告策略并提升广告投放效果。n 跨平台协作能力PPA平台支持多个广告网络和用户行为追踪工具之间的协作,打破了传统广告归因方法中的“数据孤岛”现象。不同广告渠道和数据源可以安全地共享数据,增强了数据的整合能力,为广告主提供更为全面的归因分析结果。2024全球隐私计算报告典型案例:联通数科-企业股权交易平台在股权交易场景中,股交中心节点使用隐私求交算法,从普惠征信节点通过匿踪查询技术查询该企业的税务流水、水电气交易流水以及银行交易流水数据,验证企业真实经营状况应用成效n 提升整体股权交易效率通过隐私计算技术,在确保企业经营数据安全的前提下,从征信公司的业务系统中调取数据并对企64、业提交数据进行自动核验,降低信息核验的人工成本,减少手工流程,避免操作风险,提升整体股权交易效率。n 保障企业经营数据安全可信利用区块链技术为中小企业的经营数据进行背书,为当前股权交易市场数据披露、资金托管等方面的信息不对称问题提供助力,对于加强市场稳定性建设、改进市场监督管理机制具有重要意义。n 隐私计算过程安全可靠将隐私计算和区块链相结合,既能在数据共享过程中有效保护敏感数据,实现数据的安全流通,还能为数据的真实性、数据确权等合规问题提供可行解决方案,实现隐私计算全流程可记录、可验证、可追溯、可审计。n 保障企业经营数据安全可信利用区块链技术为中小企业的经营数据进行背书,为当前股权交易市场65、数据披露、资金托管等方面的信息不对称问题提供助力,对于加强市场稳定性建设、改进市场监督管理机制具有重要意义。n 隐私计算过程安全可靠将隐私计算和区块链相结合,既能在数据共享过程中有效保护敏感数据,实现数据的安全流通,还能为数据的真实性、数据确权等合规问题提供可行解决方案,实现隐私计算全流程可记录、可验证、可追溯、可审计。应用架构隐私计算平台江西股权交易中心节点企业信息、展示信息是否完善?(上链存储)江西普惠征信公司计算节点企业是否有近三年税务流水、水电气缴费流水、银行流水数据(上链存储)隐私求交算法、匿踪查询算法江西股交中心业务系统(股权托管平台、企业挂牌展示平台、金融资产交易平台)区块链平台66、可信存证企业补充资材料企业填写申报信息预判段:是否可以挂牌?显示审批结果:是否:人工复审是企业填报数据存证审核结果数据存证补充资料数据存证统一门户网站移动app2024全球隐私计算报告典型案例:金智塔科技-基于隐私计算的省市县三级数据融合计算平台针对公共数据安全共享难题,金智塔科技联合浙江省数据局等建设基于隐私计算的省市县三级数据融合计算平台。该平台已在浙江省数据局、浙江省税务局、浙江省统计局、国网浙江电力、浙江银保监局等省市县单位部署100多个节点,并与移动运营商、征信公司等社会机构进行安全联合计算,先后在“中小企业经营现状分析”、“危化品车辆违规停靠行为分析”、“产业数据研究”等几十个场景67、展开应用,已实现300多亿数据量共享服务。应用成效在“中小企业经营现状分析”场景,有效解决浙江省金监局和国网浙江电力间跨地域数据的安全融合计算,精准识别20多万企业的生产与经营现状,从而提供全方位、实时的评分服务,有效化解企业融资难、融资贵的难题,为中小微企业的壮大发展提供有力支持,促进社会经济的高质量发展;在“危化品车辆违规停靠行为分析”场景,合规融合浙江省税务局和浙江省交通厅数据,每日计算量8000万,筛出车辆可疑停靠点,为治理油品的偷税漏税提供高价值线索;在“产业数据研究”场景,安全合规融合浙江省统计局、浙江省经信厅及社会数据,助力深入分析产业发展现状,为制定精准产业帮扶政策提供有力的数68、据支撑。应用架构2024全球隐私计算报告典型案例:马上消费-以隐私计算助力金融黑灰产治理马上消费于2022年联合多家金融机构成立了打击金融领域黑产联盟(AIF联盟),旨在通过数据共享平台建设,实现对金融黑产的有效打击,维护产业利益。2023年8月,AIF联盟自主开发的“爱马平台”正式上线,该平台基于马上消费自主研发的隐私计算平台,采用多方安全计算和联邦学习技术,实现了黑产数据的高效碰撞与识别,协助警方有效打击金融黑灰产,取得了突破性成果。亮点和成效门限求交助力金融隐私保护马上消费提出了一种基于离散对数问题的门限隐私集合求交算法,使参与方在无须第三方信任节点的情况下,安全计算满足阈值的最大交集,69、抵御攻击模型,保护数据隐私,确保中间数据安全,且计算效率高,不受参与方数量影响,可用于识别跨机构的恶意行为者,帮助金融机构协作打击金融黑灰产。爱马平台打击金融黑灰产AIF 联盟的“爱马平台”利用隐私计算技术,通过求交方式挖掘黑灰产线索。在打击非法代理维权场景中,以用户手机号等为例,在多个参与方中找出满足特定条件的交集数据,即黑灰产线索,同时保证各参与方非交集部分数据不被泄露,并建立多方黑产线索碰撞机制,全面防范和协助警方打击金融黑灰产。AIF联盟打击金融黑灰产成效至2024年,AIF联盟已吸引包括银行、互金、保险、小贷在内的129家机构加入,共同推进了60起非法代理维权案件的受理,其中14起为70、刑事案件,促使警方对172名金融黑产人员采取了强制措施。试运行期间,22家成员机构导入了87580条黑灰产数据,发起了145次扫描任务,挖掘出1150条黑灰产线索。应用架构隐私计算运营平台黑产求交黑产求并安全协议存证模块黑产扫描黑产聚合打击跟踪成员管理黑产扫描结果黑产聚合结果AIF成员1黑名单AIF成员2黑名单AIF成员3黑名单AIF成员3黑名单密文计算密文计算密文计算密文计算查询方被同一黑产攻击的企业,可联合打击平台求交计算后发现AIF成员2和AIF成员4被同一黑产攻击,打标后发起联合打击建议。平台求并计算获得密文并集,基于该并集提供数据查询服务,排除低营销价值用户。AIF系统平台运营中心271、024全球隐私计算报告典型案例:蚂蚁集团-基于医保 DRGs 建模的蚂蚁隐私计算智能服务平台该案例通过隐私计算技术向医疗机构提供患者数据不出域的本地模型训练的功能,以提升医疗诊断分类预测效果的准确性,解决单家医院因为数据样本少、疾病覆盖量小导致的医疗诊断分类(DRGs)准确性不高等问题。应用成效基于隐私保护计算技术实现的联合DRG建模方式,在患者方面,加强了数据授权和流转的立法保护和实际落地,保护了患者医疗数据和个人信息的安全性;在医疗机构方面,提供了更安全的数据不出本地的共享方式,保障机构数据利益的同时充分释放了数据价值。应用架构训练节点本地模型工作节点本地模型模型下载参数上传隐私计算平台D72、RGs组1DRGs组DRGs组3标准:10000块阑尾切除消化道恶性肿瘤标准:58000块几千个组别病人B病人C病人A病人D3万+诊断 2万+手术 几十亿种组合 服务管理模型开发服务监控全局模型模型参数安全保护医疗机构A医疗机构B训练样本导入在线数据导入训练节点本地模型工作节点本地模型训练样本导入在线数据导入任务下发参数上传任务下发应用接入应用接入确保各方医疗数据安全DRG支付模式的优势一是能够减少对药品、耗材、大型建设设备的不合理使用,减少过度医疗,有效降低患者医疗成本、减轻患者经济负担;二是提高医疗机构医疗资源利用率,有利于促进医疗服务公开透明,有效规范医疗机构的医疗服务行为,有效提高医疗73、服务质量;三是医保基金不超支,助力医保控费。降低成本,提升资源利用率2024全球隐私计算报告Part Five隐私计算与人工智能第五章2024全球隐私计算报告隐私保护机器学习PPML在医疗、金融、社交网络等领域,隐私保护技术的应用显著提升了产业效率,推动了数据共享与协作的安全性,加速了智能化产业变革,同时促进了新技术与传统业务模式的深度融合。机器学习在各领域快速发展 通过整合不同领域的数据来学习多样化的数据特征,增强模型性能和泛化能力 允许研究人员和开发者访问不同地区的独特数据集,加速创新和研究 促进国际合作跨域数据共享的重要性敏感数据的滥用 Cambridge Analytica事件(20174、8年):未经用户许可通过Facebook非法收集了8700万用户的个人信息进行政治广告定向推送。Google与Ascension医疗数据共享(2019年):获得了数百万患者的健康记录。Clearview AI的面部识别数据滥用(2020年):抓取了大量社交媒体上的个人照片,创建了一个全球性的人脸数据库。LinkedIn数据抓取与滥用(2021年):超过7亿LinkedIn用户的数据被非法抓取并在黑市出售(虽然这些数据来自公开资料)。WhatsApp数据共享争议(2021年):WhatsApp计划将更多的用户数据共享给其母公司Facebook。Anthropic 数据泄露(2024年):一名承包75、商错误地将客户的信息通过电子邮件发送给了不该访问这些数据的第三方。隐私保护机器学习(Privacy-Preserving Machine Learning,PPML)是一种结合人工智能(AI)和隐私计算技术的机器学习方法,其目的是在不泄露敏感数据的情况下训练或评估。隐私计算赋予人工智能“数据可用不可见”的能力,实现数据共享使用,从而更好地发挥出数据在人工智能领域发展中的支撑性作用。2024全球隐私计算报告隐私保护机器学习面临三大风险 1.模型训练过程中,存在通过在线监控来获取数据集的隐私数据的风险;2.模型中存储的数据,具备一定的可逆性,可以通过一些攻击手段,如成员推理攻击等手段,获取模型内存76、储的隐私数据。数据集泄漏风险AI系统在其整个生命周期中,从数据收集到模型训练和推理阶段,容易受到各种安全威胁。敌手可以通过诱导生成错误、具有后门的模型,来向用户提供误导性AI服务。模型鲁棒性风险AI模型提供的服务,尤其是金融、医疗等领域,用户数据具备高隐私性。直接将用户数据发送给模型提供方,会令模型提供方获取到隐私数据。数据推理隐私泄漏风险数据推理模型训练2024全球隐私计算报告隐私保护机器学习应用快速增长隐私保护机器学习的概念最早出现在2016年,经过9年的发展,目前已经成为安全领域最为热门的方向之一。61175466820150020702730670001000200030004000577、00060007000800020162017201820192020202120222023-2024 PPML应用英文文献按年发表数量隐私保护机器学习研究领域处于上升期,研究热度逐年增加。对谷歌学术、dblp等多个论文数据索引工具进行整理后表明,隐私保护机器学习应用性的工作在20162020呈现快速增长,20-23年呈现缓慢增长。其中,23年发表的文章数量为3657,24年截止年中(9月份)为3003篇。据不完全统计,截至目前,隐私保护机器学习英文文献相关工作成果14522个。物联网与智能设备,区块链与数字货币或成为主流隐私保护机器学习应用。对所有2023-2024隐私保护机器学习应用文献78、进行分类,结果表明区块链与数字货币占比最高,其包括了数字货币交易隐私保护、供应链追踪、去中心交易、身份验证等多种应用场景。物联网与智能设备成为第二大应用领域,覆盖如IoT系统,智能穿戴设备等多用途。此外,隐私保护机器学习用于医疗信息学、图像分类诊断、卫生保健等用处占比19%。27%19%2%7%7%7%2%29%物联网与智能设备医疗金融社交网络法律与合规公共管理电商广告区块链与数字货币2024全球隐私计算报告PPML类型分布PPML模型分布隐私保护机器学习相关技术快速增长。隐私保护机器学习相关研究在2016年至2020年间呈现快速增长,显示出行业的迅猛发展。自2021年起,新增数量趋于平稳,279、023年由于生成式AI的应用,相关研究激发了新的隐私保护机器学习热点,24年上半年的隐私保护机器学习相关研究数量接近22年全年的研究数量。隐私保护机器学习类型聚焦512376292110111142103020406080100120140160201620172018201920202021202220232024近两年大语言模型下的PPML研究数量递增,然而CNN仍然是PPML研究的主要领域。统计表明,深度学习方法(如CNN、RNN)下的PPML占主要,传统机器学习方法(如决策树、逻辑回归)只占所有研究工作的20%。23-24年隐私保护Transformer模型研究数量递增,占所有深度学习80、的17%,然而CNN仍然是DNN下研究的主流。PPML研究基础性工作增长数量(不包括传统机器学习方法)2023-2024 PPML技术及应用模型类型研究分布深度学习方法,80%传统机器学习,20%GNN,11%RNN,8%LLM,17%CNN,32%Others,32%2024全球隐私计算报告隐私保护机器学习技术分类密态计算方法同态加密函数加密安全多方计算可信硬件匿名化技术消除方法噪音方法分布式方法联邦学习拆分学习混合方法半可信硬件差分隐私&安全多方计算同态&安全多方计算采用密码学方法进行隐私保护机器学习,可以确保数据执行过程无任何隐私泄漏。1)使用同态加密算法加密数据,在密态数据上评估机器学81、习模型。2)函数加密,使用函数加密方法加密密态模型函数,直接在数据上评估模型。3)安全多方计算,如采用秘密分享等方法,根据机器学习算子,交互式地评估机器学习模型。4)可信硬件机密计算,作为部署在恶意方内部的“飞地”,其可以作为可信的计算方,将加密数据直接交由可信硬件执行计算。在欧盟通用数据保护条例(GDPR),美国加州消费者隐私法案(CCPA)和中国个人信息保护法中,都对数据匿名化技术(Anonymization)给出了相似的定义。具体来说,匿名化技术指的是个人信息经过处理后,无论是否借助其他信息或工具都无法识别特定自然人且不能复原的过程。我们将其分为主要两类:一类是采用消除方法,如k-匿名等82、,此类方法直接消除部分信息。另外一类通过噪音方法,如差分隐私等,为数据添加扰动,来确保无法直接获取敏感信息。由于数据本身信息被破坏,此类方法可以抵御上述数据集泄漏风险中的部分攻击,如成员推理攻击等。分布式方法目前主要包括两种技术。第一种是联邦学习,各参与方在本地进行训练,并通过通信与聚合共享模型参数。这种方法的效率较高,只公开了梯度信息,确保了数据隐私,特别适合于需要保护用户敏感数据的场景。第二种是拆分学习,它将模型分为多个部分,由不同节点分别进行训练,能够确保数据完全不出域,保护了数据的安全性。然而,在实际应用中,其模型的可用性和效率仍需进一步验证与考量,尤其是在面对复杂任务时,可能会影响训83、练效果。混合方法结合了多种隐私计算技术来实现更高效、安全性更高的隐私保护机器学习,是目前的研究热点。典型的如:1)半可信硬件:使用可信硬件结合安全多方计算或同态,来提升执行效率。2)差分隐私协同安全多方计算,实现多个维度的数据安全。同时防止模型逆向攻击,也保证了模型在密态下执行。3)同态结合安全多方计算/混淆电路结合安全多方计算/函数秘密分享结合安全多方计算:在不同模型算子上采用不同的隐私计算技术来提升效率。2024全球隐私计算报告2023-2024 PPML技术研究分布隐私保护机器学习技术热点差分隐私,25%可信硬件,3%其他匿名技术,1%同态,29%MPC,12%联邦学习,29%单一技术,84、45%混合技术,55%2023-2024所有的PPML技术中,采用多种隐私保护技术来实现隐私保护机器学习的工作,占比为55%,单一技术实现的占比为45%。混合方法具有较大优势,混合方法主要分为以下几类:混合方法成为研究热点考虑到机器学习算子的差异,采用针对不同算子的最优技术可提升隐私保护机器学习的性能。如,两方场景下,同态加密高效计算矩阵乘法等线性函数,而不经意传输在处理非线性函数时更具优势。当前大多数全密态计算工作都采用了混合方法,如评估视觉模型的Cheetah(USENIX22)、ORCA(S&P23),Bolt(S&P 24)、SIGMA(PETS 2024)等。通过不同技术实现不同机器85、学习算子通过不同技术实现不同的安全保障隐私保护机器学习不同的安全风险需要采用不同的防护手段。例如,安全多方计算可以有效防护隐私数据在使用过程中的泄漏。而差分隐私等技术手段则能够在一定程度上确保隐私数据无法从模型输出中提取,从而抵御反转攻击等威胁。通过结合多种防护手段,可以增强系统的安全性,抵御更多类型的攻击,形成多层次的安全防护机制。通过引入可信硬件提升计算性能由于安全多方计算开销远远高于明文计算,机器学习计算任务复杂,密态计算下几乎无法直接完成,结合可信硬件等方法降低部分安全性,有效提升实际可用性。典型的半可信硬件方案,如Hybrid Trust MPC with TEE(NDSS 22),86、PPMLAC(ISCA 22),以及蚂蚁的TECC平台(2023)等均采用了混合TEE和安全多方计算混合的方法,以提供高效可用地隐私计算机器学习。全同态成为隐私保护机器学习研究热点对2023-2024年所有的PPML底层技术进行统计,其中同态相关技术占比30%,成为隐私保护机器学习的研究热点。除去差分隐私、联邦学习等非全密态隐私保护方案,全同态加密在密态机器学习下占比66%。此外,联邦学习等分布式方法占比29%,成为第二大PPML研究方向,展现了隐私保护技术在多领域应用的广阔前景。2024全球隐私计算报告隐私保护机器学习性能提升257.81.290.810.540.1949.9103.558187、1915.90.11101001000201620172018202020222023-24MNISTCifar-LanetResnet32同态/两方PPML性能指标(单位s,以视觉模型为例)全同态/两方隐私计算机器学习性能持续增长2016年CryptoNet最早通过全同态构建了CNN模型,当时评估最简单模型,使用手写数字识别数据集(MNIST),执行数据推理,需要257s。并且CryptoNet采用平方作为激活函数来取代Sigmoid等非线性操作。到2024第三季度为止,目前被文献中报告的最佳MNIST数据库下的NN评估时间为0.19s(两方,FxHENN HPCA23),较CryptoNe88、t提升了1000倍以上。目前最佳的Cifar-LaNet性能报告为2022 Cheetah的结果,其开销为LAN下3.55s,0.11GB通信开销。4.92.50.130.0430.0310.0060.110.10.0450.0010.010.1110201720182019202020222023-24MNISTCifar三方计算覆盖了目前最高效地密态机器学习方案多方场景下PPML性能指标(单位s,以视觉模型为例)SecureML S&P 17最早实现的三方CNN,在其报告中,执行MNIST-LeNet需要4.9s。相较于两方、同态方案,三方场景可以实现IT-secure,性能远远高于两方场89、景。截止24年为止,大量的优化方案,如GPU(Piranha USENIX 22,ORCA S&P 24)加速等,实现了对三方场景下PPML的大量性能提升。在ORCA的报告中,执行MNIST-LeNet本地时间只需0.006s,执行Cifar-10-LeNet仅仅需要0.045s。2024全球隐私计算报告隐私保护机器学习面临的挑战和展望虽然技术如差分隐私、同态加密和联邦学习已经有了突破性进展,但这些技术在实际应用中往往需要结合多种方法才能实现有效的隐私保护。然而,结合多种技术手段仍存在挑战。一方面,整合多个领域的技术人员构造系统性的架构存在巨大的成本;另一方面,多个领域进行技术结合仍然处于研究90、阶段。隐私保护技术融合处于初步阶段现有技术在大规模数据应用场景下的可扩展性存在明显不足。随着数据量的急剧增加,现有隐私保护技术在性能、效率和资源消耗方面面临严峻挑战。例如,同态加密的计算复杂度较高,无法在短时间内处理海量数据,而联邦学习在涉及多个参与方时也面临通信和同步的瓶颈。总的来说,目前PPML领域呈现出大规模软件化趋势,目前尚且没有如TensorFlow、PyTorch等在ML领域相当成熟的框架,SecretFlow是一个成功地尝试,但如何处理大规模数据场景,集成针对PPML领域的性能优化能力,仍然处于探索阶段。无法应对大规模数据应用场景尽管隐私保护是许多产业的迫切需求,但企业对这些技术91、的接受度有限,部分原因是缺乏成熟的商业解决方案和明确的市场导向。技术的实际应用和落地仍面临高昂的开发成本和复杂的实施流程,导致其在市场上缺乏广泛应用。缺乏市场应用2024全球隐私计算报告Part Six隐私计算未来展望第六章2024全球隐私计算报告技术趋势一:软硬件协同加速设计兼容GPU等硬件加速手段的运行时架构典型的如CrypTen、CryptGPU、Piranha等隐私保护机器学习架构,其实现了对GPU的支持。这类框架在GPU上的应用被证实得到了极大的性能提升,据文献报告,采用一些针对GPU的内存优化后,可以对原始CPU下隐私保护机器学习任务直接提升100倍以上的运行效率。软硬件结合异构设92、计考量隐私计算具体应用场景,不同计算方运行在不同计算设备、不同硬件环境中,需要针对硬件特点,进行算法的设计。一方面,不同计算方计算力不同,隐私计算协议需要均衡不同计算节点算力;另一方面,整体应用需要灵活考量不同硬件、算力、网络情况进行综合调度。半可信硬件结合可信硬件和全同态、可信硬件和安全多方计算等半可信硬件方案得到了广泛关注。半可信硬件结合了全同态和安全多方计算等密态计算的安全性优势和可信硬件的性能优势,实现了高效的隐私计算,在实际工业场景中,既可以保证合理地响应时间,又能确保一定程度的安全性,被应用到各个隐私计算领域。2024全球隐私计算报告技术趋势二:隐私计算自动化编译技术前端结构化设计93、以提升扩展性大量的工作开始关注PPML的实际使用,其中蚂蚁隐语-SPU ATC 23得到了广泛的关注,其采用MLIR作为前端,支持了对任意前端任务的拓展。此外COMBINE CCS 23等工作均采用了IR的形式来提升前端的拓展性。设计最佳协议调度由于混合协议促进了PPML走向实际,混合协议的组合优化应运而生,该问题的本质为:对于不同的任务类型、任务规模,如何应该选择不同的最佳协议。目前有一系列隐私计算编译方案聚焦于此,其中最为著名地是HyCC框架 CCS 18,此外还有如CostCO Euro S&P 22,Silph S&P 23等。根据Silph等工作的报告,自动化协议选择,相较于根据经验94、选择,实现了4倍以上的性能收益。性能优化大量的工作开始关注对隐私计算应用进行性能优化,一些编译器支持了一部分性能优化方案,如COMBINE支持算子向量化优化,CBMC-GC CCS 12支持电路优化,隐语-SPU支持流水线优化等。性能优化可以为隐私保护应用带来直观的性能提升,是确保隐私计算技术走向实际应用的重要部件。2024全球隐私计算报告应用趋势:场景应用不断拓展,并向数据运营延伸演进隐私计算应用持续加强特定能力和场景适配性目前隐私计算的应用主要集中在金融、医疗、政务等领域。针对特定能力与特定场景的适配性将是隐私计算应用下一阶段的重点发展方向。一方面隐私计算应用将增强管理类功能、算法能力、互95、联互通等各类特定能力,另一方面将扩展跨行业、跨机构、个性化新领域等各类特定场景。软硬一体化推动隐私计算应用发展软硬件结合的隐私计算一体机能够有效平衡性能和安全性。基于GPU、FPGA的算力硬件加速,降低了模块耦合度,缩短了隐私计算算法加解密时间,实现隐私计算的性能大幅提升。隐私计算一体机提供了开箱即用的数据处理解决方案,未来具备较大的市场发展机会。数据运营成为隐私计算应用新机遇随着隐私计算应用数据源不断接入,数据积累量有了爆发式的增长,数据运营市场成为新机会。数据运营型隐私计算应用可以汇集更多的供应链上下游参与者,为之前未建立联系的各方提供了更广泛的选择和机会。相比单纯售卖软硬件应用,数据运营不仅边际成本更低,而且议价权更高,能开拓更广阔的市场。2024全球隐私计算报告在此,感谢所有支持和参与编写2024全球隐私计算报告的政企单位、研究机构和行业专家,感谢所有关注隐私计算发展、贡献开源的各界人士。欢迎大家与我们联系探讨,共同推进隐私计算等数据技术的发展与应用。杭州数据交易所数据要素社浙大网安中国联通智能城市研究院杭州数据协同创新未来实验中心

    下载