AVTok 是音视频生成的统一分词器,采用双流 Transformer 架构结合共享编码器-解码器和模态特定查询,生成紧凑的一维潜在表示。
想读得更深?AI Insight Pro 解锁全部深度研报与资讯完整解读。