OpenAI Privacy Filter 深度档案 — 罕见的官方开源、本地浏览器跑、PII 检测 96% F1
Product Review
1.5B 总参 / 50M 激活 · Apache 2.0 · 8 类 PII 自动检测 · WebGPU 浏览器内推理。
2026 年 4 月 22 日,OpenAI 在 HuggingFace + GitHub 同步发布 OpenAI Privacy Filter —— 一款专门做"个人身份信息(PII)自动检测与脱敏"的开源模型[1][2]。1.5B 总参、50M 激活、128K 上下文、Apache 2.0、PII-Masking-300k 基准 96% F1(修正版 97.43%)[3]。最关键:支持 transformers.js + WebGPU 浏览器内本地运行——发给 ChatGPT 之前先在用户自己的浏览器里把敏感信息抹掉,数据从不离开本地[4]。这是 OpenAI 多年来最重要的开源动作之一,也是企业 PII 处理赛道(Microsoft Presidio / AWS Comprehend / Google DLP / Lakera)的格局重塑信号。
1.5B / 50M
总参 / 激活 · MoE 128 专家 top-4
96%
PII-Masking-300k F1 基准
128K
上下文窗口
Apache 2.0
完全开源 · 商用免费
What It Detects
8 类 PII 类别。
| 类别 | 英文标签 | 示例(敏感) | 替换占位符 |
|---|---|---|---|
| 账号 | Account number | 4829-1037-5581 信用卡 / 银行账号 / 客户号 | [ACCOUNT_NUMBER] |
| 地址 | Private address | 北京市朝阳区 ××路 ××号 / 邮编 | [PRIVATE_ADDRESS] |
| 邮箱 | Private email | maya.chen@example.com | [PRIVATE_EMAIL] |
| 人名 | Private person | 张三 / Alice Smith | [PRIVATE_PERSON] |
| 电话 | Private phone | +86 138-XXXX-XXXX | [PRIVATE_PHONE] |
| URL | Private URL | 个人 dropbox 私链 / 内网 URL | [PRIVATE_URL] |
| 日期 | Private date | 1990-05-21(生日 / 入职日 等敏感日期) | [PRIVATE_DATE] |
| 密钥 / 凭证 | Secret | API key / password / token / SSH key | [SECRET] |
Architecture
不是 GPT —— 是 token 分类器。
| 维度 | OpenAI Privacy Filter |
|---|---|
| 模型类型 | 双向 token 分类器 + span 解码(不是自回归 chat 模型) |
| 总参 / 激活 | 1.5B / 50M(MoE 稀疏激活) |
| 层数 | 8 transformer blocks |
| 注意力头 | 14 query heads / 2 KV heads(GQA grouped-query attention) |
| MoE 配置 | 128 个专家,top-4 路由——对同一 1.5B 参数预算,比 dense 模型表现好 |
| 上下文窗口< |