图像变文字,这在今天已经不再是问题了。各式各样的 OCR 功能让你可以从图片中提取文字变得更加容易,一幅图让 AI 来解释也不是什么大难题。但画图对于今天的 AI 来说还是有难度的,识别图片提取信息对于 AI 来说是处理信息。但作图就多了一层,不仅要处理信息,还需要完成创作。前者是选择题,后者则是命题作文。只是选择题答得好之后,下一步也得答好自由发挥的主观题。只是没人想到,第一个在自家 app 上答出这道题的是 TikTok。用 TikTok 生成 Facebook、马云对比 Google、OpenAI 这类在 AI 行业投入颇多、浸淫已久的巨头,TikTok 可能只是一个「插班生」。但插班生绕过巨头先做出了难题,这怎么不让人感到惊讶?虽然插班生也使了一些巧劲,但至少做出来还是很令人感叹。TikTok 做出来的文字转图片功能被叫作「AI 绿幕(AI Greenscreen)」,取代了原先单调的白底,由 AI 来为你生成视频的背景。这些视频的背景未必每一个都能契合创作者的需求,但毕竟这是为你定制的、独一无二的绿幕背景,运气好的话或许和视频内容的主题也会更配。发视频时点击特效即可体验此功能. 图片来自硅星人我们就用这个新功能做了一些测试,看看 TikTok 画出来的图到底是怎样的。在这些随机测试的词语中,有的画作呈现让人摸不着头脑,但也有的被评价为「很好地描绘出了诡异感」。大受好评的就是输入「Facebook」呈现的画作,你隐约能够认出 Facebook 的蓝色图标,图片中单个的眼睛和一只耳朵营造了一种独特的惊悚感。结合一下 Facebook 近期的新闻,不得不说这幅画很好地描绘出了 Facebook 这个词的感觉。图像描绘准确的还有苹果、中国这样的词。前者能够轻松看出是一个苹果,后者也能看出中国风的建筑,同时也避免了国旗这类在二创领域较为敏感的图案。只是你要想要呈现的是苹果公司的图就很难了,哪怕是苹果 + 苹果 CEO 库克的关键词呈现的也是苹果和菜肴相关的图案。不过无关的也有不少,比如我们尝试了阿里巴巴、腾讯、字节跳动,生成的也不能板上钉钉地说和这些品牌无关。但不管怎么说很难一眼认出,多少有些抽象。输入人物姓名绘出的图画也有不少有意思的。在海外知名度不低的手工博主李子柒名字生成的就是一幅让人舒心的风景画;著名的英超前主教练温格生成的图画也能让人一眼认出,属于经典照片重新解构的风格;马云的风格也有点诡异,和 Facebook 一致的眼睛有种窥视感。至于马斯克,我们用 TikTok 生成了四个图片没有一个能认出来的。当然除了通过人物词成功、抽象图画,也有被认为表达得恰到好处,可以让人联想起来的 Switch、广州。塞尔达式风格的画作,里面有的人物可以让粉丝认出「这可能是马里奥」。同样广州标志性建筑和绚丽的色彩也能让人轻松识别。每张背景图生成的时间不到 5 秒,如果主题相近,那么这些图用来做视频的背景图是非常合适的。生成的时间短,人人可用,这都是 TikTok 的优势所在,所以这样一个文字转图像的产品出现在一个日活上亿的应用上也可以算是一个标志性事件。只是 TikTok 还是走了捷径。目前产生的图片几乎都属于画作风格,很多甚至属于抽象派、印象派。和生成写实的图像相比,这个难度就低了不少。毕竟就算不像也能靠脑补,理解你输入词的 AI 和去美术馆看画展的你面对的都是一样的问题——如果相似不够,那就理解来凑。这是一种省成本的方法,难度低一点,需要耗费的算力也低,成本也就更低了。即便是内容略有血腥文字呈现的图片也不会太过惊悚文字变图,连 Google 都还没有即时生成的产品从效果上来看,TikTok 的 AI 绿幕呈现效果并不能打上超高分。但作为一项门槛颇高的技术,能够在几秒内被用户无门槛地使用到就已经算进步了。虽然受限于生成图片目前还不够「日常」,不够写实不会引发技术滥用和图片造假的担忧。但写实的图片其实已经可以做到了,只是还不到 AI 绿幕这种人人可用的程度罢了。Google 也曾发布过一个 Imagen AI 工具,可以把简单的句子变成一张真实的图片——像拍出来的照片一样真。但很遗憾,即便是在 AI 这方面投入巨大的 Google 也没能做出即时生成的产品。换句话说,输入要求让 AI 给你画图的选项在 Imagen AI 还没有。