最新的字节文本生成了一个图像AI,但是在训练集中没有一个带有文本描述的图片。

文本图像不需要数据,但人工智能可以学习阅读和绘制文本吗?bytes最新的text2image模型,大功告成。实验数据表明,其效果比VQGAN-CLIP更真实,尤其是泛化能力远优于许多由大量文本-图像数据对训练的模型。
嗯?没有文字标注,AI怎么知道每张图片代表什么?这个模特到底是怎么训练出来的?
无需文本训练就可以从文本中生成图像。首先,作者说选择这种方法是因为收集大量带文字的图像数据集成本太高。一旦我们摆脱了对文本图像数据的需求,我们就可以直接用一个没有文本图像的大数据集(比如ImageNet)来训练一个强大的、通用的text2image生成器。这个由bytes实现的模型被称为CLIP-GEN它是如何工作的?有三个主要步骤。首先,对于没有文本标签的图像,使用CLIP的图像编码器提取图像在语言-视觉联合嵌入空间中的嵌入。然后,将图像转换成VQGAN码本空间中的一系列离散符号。即图像用自然语言一样的方式表达,方便后续用Transformer处理。其中,起图像标记器作用的VQGAN模型,可以利用手中未标记的图像数据集进行训练。最后训练一个自回归变换器,用它把变换器的语言和视觉统一表示的图像标记映射到对应的图像上。经过这样的训练,面对一串文本描述,Transformer可以根据从CLIP的文本编码器中提取的文本嵌入生成相应的图像令牌。
这种没有文字数据的文字图像生成器全程参与训练的效果如何?
性能相当于清华CogView的作者分别在ImageNe和MSCOCO数据集上对CLIP-GEN进行了训练和评测。首先,利用MS-COCO验证集中的六个文本描述生成样本。通过大量文本-图像对训练的CLIP-GEN和其他text2image生成模型的效果比较如下:
其中VQGAN-CLIP的结果不真实,并且伴随着严重的形状失真。来自清华的CogView号称比Dall-E更好,在这里的实验中,确实可以生成很好的图像结构,但是在纹理细节上几乎不可能。DF-GAN可以生成具有丰富细节的合理图像,但也容易出现局部伪影。笔者认为,与这些对比模型相比,CLIP-GEN的图像细节更丰富,质量更高。比如很好地解释了第二组单词中要求的“水中倒影”(但不太能理解《三只毛绒熊》中的数字概念)。定量实验结果基本证明了这一结论:CLIP-GEN的FID-0和FID-1得分最高;CapS评分(衡量输入文本和生成图像之间语义相似性的指标)远高于其他模型,只是比CogView低4%。
另外,笔者还发现CLIP-GEN的泛化能力似乎不错。在以下非常规的文本描述中,例如生成“一只飞行的企鹅”、“一只叼着雪茄的狗”和“一只长着脸和头发的柠檬”.……CLIP-GEN基本能实现,其他型号不太懂。
作者介绍这个模型的五位作者都来自字节。
一个是王子豪。记者的名字叫易。他毕业于南京大学,并在加拿大纽芬兰纪念大学获得学士和博士学位。目前在Byte做人工智能专家(主要研究多模态、超分辨率、人脸特效)。在此之前,他在华为工作。地址:https://arxiv.org/abs/2203.00386—End—
量子qbitai头条号签约
关注我们,第一时间获悉前沿科技动态。

其他教程

Animatetimes秋季预期调查排名公布《阿松》峰会

2022-8-8 2:29:32

其他教程

对电影特效的看法(视觉效果震撼的科幻电影)

2022-8-8 2:31:45

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索