产品调研

OpenAI Privacy Filter 深度档案

罕见的官方开源 · 1.5B/50M MoE · WebGPU 浏览器内 PII 检测 · 96% F1 · 撕开 Presidio / AWS / Google DLP 市场

2026-04-28 12 篇信源 读完约 12 分钟

OpenAI Privacy Filter 深度档案 — 罕见的官方开源、本地浏览器跑、PII 检测 96% F1

Product Review

1.5B 总参 / 50M 激活 · Apache 2.0 · 8 类 PII 自动检测 · WebGPU 浏览器内推理。

2026 年 4 月 22 日,OpenAI 在 HuggingFace + GitHub 同步发布 OpenAI Privacy Filter —— 一款专门做"个人身份信息(PII)自动检测与脱敏"的开源模型[1][2]1.5B 总参、50M 激活、128K 上下文、Apache 2.0、PII-Masking-300k 基准 96% F1(修正版 97.43%)[3]。最关键:支持 transformers.js + WebGPU 浏览器内本地运行——发给 ChatGPT 之前先在用户自己的浏览器里把敏感信息抹掉,数据从不离开本地[4]。这是 OpenAI 多年来最重要的开源动作之一,也是企业 PII 处理赛道(Microsoft Presidio / AWS Comprehend / Google DLP / Lakera)的格局重塑信号。

1.5B / 50M
总参 / 激活 · MoE 128 专家 top-4
96%
PII-Masking-300k F1 基准
128K
上下文窗口
Apache 2.0
完全开源 · 商用免费

What It Detects

8 类 PII 类别。

类别英文标签示例(敏感)替换占位符
账号Account number4829-1037-5581 信用卡 / 银行账号 / 客户号[ACCOUNT_NUMBER]
地址Private address北京市朝阳区 ××路 ××号 / 邮编[PRIVATE_ADDRESS]
邮箱Private emailmaya.chen@example.com[PRIVATE_EMAIL]
人名Private person张三 / Alice Smith[PRIVATE_PERSON]
电话Private phone+86 138-XXXX-XXXX[PRIVATE_PHONE]
URLPrivate URL个人 dropbox 私链 / 内网 URL[PRIVATE_URL]
日期Private date1990-05-21(生日 / 入职日 等敏感日期)[PRIVATE_DATE]
密钥 / 凭证SecretAPI key / password / token / SSH key[SECRET]
Privacy Filter 检测的 8 类 PII。每类带 BIOES 跨度标签 + 受 Viterbi 解码约束保证 span 完整。模型可以同时在一句话里识别多类并精确切分。

Architecture

不是 GPT —— 是 token 分类器。

维度OpenAI Privacy Filter
模型类型双向 token 分类器 + span 解码(不是自回归 chat 模型)
总参 / 激活1.5B / 50M(MoE 稀疏激活)
层数8 transformer blocks
注意力头14 query heads / 2 KV heads(GQA grouped-query attention)
MoE 配置128 个专家,top-4 路由——对同一 1.5B 参数预算,比 dense 模型表现好
上下文窗口<