CLIP

CLIP 是 OpenAI 发布的多模态预训练模型,可以同时处理文本和图像输入,并生成统一的向量空间表示。它使得跨模态检索成为可能,例如根据文字描述找到最相关的图片。CLIP 支持多种下游任务,如零样本分类、图文匹配等,是构建视觉-语言理解系统的重要基础模型。

资源详情

相关资源