侈人观听网

OpenAI发布隐私过滤模型,可以本地运行高精度屏蔽个人敏感信息

来源:侈人观听网-工人日报
2026-04-25 18:39:00

OpenAI推出一款可定制化隐私保护工具"OpenAI Privacy Filter",能够自动识别并屏蔽文本中的个人身份信息,同时适用于AI模型训练数据的清洗处理。

该模型周三正式发布,可识别姓名、日期、账户号码、信用卡号及电子邮件地址等敏感信息,用户还可根据自身需求和隐私政策对其进行微调。

Privacy Filter最关键的特性在于支持本地运行。待处理的敏感数据无需上传至服务器,可直接在设备端完成脱敏,从而降低数据在传输过程中的暴露风险。

此次发布被OpenAI定位为"构建更具韧性的软件生态系统"的一部分,其战略意图指向AI开发工具链的底层基础设施。该模型现已在Hugging Face和GitHub上以Apache 2.0许可证开源发布,支持商业部署与二次微调。

OpenAI官网展示的屏蔽效果如下,输出文本相较于输入文本隐去了私人信息:

功能定位:处理非结构化文本中的敏感数据

OpenAI Privacy Filter所针对的是如何有效清洗文本数据中的个人隐私信息。随着企业对AI合规使用的要求日趋严格,此类工具的市场需求正持续上升。

在检测类别上,Privacy Filter覆盖八类标签:私人姓名、私人地址、私人邮箱、私人电话、私人URL、私人日期、账号信息以及密钥/密码。

与传统基于规则的PII检测工具相比,Privacy Filter的核心差异在于上下文感知能力。传统工具依赖固定格式匹配(如电话号码、邮箱格式),难以处理语义模糊或依赖上下文的隐私判断。

Privacy Filter依托预训练语言模型的语言先验,能够区分属于公众信息的实体与涉及私人个体的信息,从而在"该屏蔽什么"的判断上更为精细。

同时OpenAI GTM 团队成员特别提到该模型支持本地运行,待处理的敏感数据无需上传至服务器,可直接在设备端完成脱敏,从而降低数据在传输过程中的暴露风险。

不过,OpenAI在模型说明中明确指出了若干重要局限。Privacy Filter并非匿名化工具,也不等同于合规认证,无法替代高风险场景下的人工政策审核。在法律、医疗、金融等高敏感领域,仍需人工复核与领域专属评估。

开源策略:从产品竞争转向生态布局

此次发布与OpenAI过去数月持续加大开源力度的路径一致,反映出其在商业模式上的多维布局。一方面通过API和ChatGPT等产品直接变现,另一方面通过开放模型和工具巩固开发者生态。

Privacy Filter以Apache 2.0许可证发布,允许免费商业使用和修改,许可条款相对宽松。

OpenAI同步公开了模型架构、标签体系、解码控制机制、评估方案及已知局限等技术文档,以便开发者团队充分了解模型的能力边界。

OpenAI表示,此次发布为预览版,目的是收集研究社区和隐私领域从业者的反馈,并在此基础上进一步迭代模型性能。

其长期愿景是使隐私保护基础设施"更易于检查、运行、适配和改进",并将Privacy Filter定位为"AI系统应学习世界知识,而非学习私人个体信息"这一原则的技术实践。

责任编辑:侈人观听网

媒体矩阵


  • 客户端

  • 微信号

  • 微博号

  • 抖音号

客户端

亿万职工的网上家园

马上体验

关于我们|版权声明| 违法和不良信息举报电话:010-84151598 | 网络敲诈和有偿删帖举报电话:010-84151598
Copyright © 2008-2024 by {当前域名}. all rights reserved

扫码关注

侈人观听网微信


侈人观听网微博


侈人观听网抖音


工人日报
客户端
×
分享到微信朋友圈×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。