直接将图片和文本都通过Encoder,分别得到图片和文本的向量表示,让配对的图片和文本尽可能接近,其他的配对都尽可能远离。(对比学习)
分别对文本和图片计算交叉熵损失,最后将两个损失加起来平均。
模型推理是还是需要输入句子,然后得到最相近的句子,那个相似度最大对应那个类别。
这也是最早的prompt工程,直接输入类别名,不如输入一个带类别名的句子分类效果更好。
直接将图片和文本都通过Encoder,分别得到图片和文本的向量表示,让配对的图片和文本尽可能接近,其他的配对都尽可能远离。(对比学习)
分别对文本和图片计算交叉熵损失,最后将两个损失加起来平均。
模型推理是还是需要输入句子,然后得到最相近的句子,那个相似度最大对应那个类别。
这也是最早的prompt工程,直接输入类别名,不如输入一个带类别名的句子分类效果更好。