从前,AI只是在棋牌桌上战胜了人类,今天,我们所读到的文章、看到的绘画,甚至是听到的音乐,都可能是AI创作的。
ChatGPT的火爆甚至一度引发了海外科技公司的新一轮裁员潮,而在文本聊天之外,AI在图像生成领域更是“野蛮生长”,它们一张张令人惊艳的作品,一度让各路设计师都产生了丢掉饭碗的担忧。
从DALL·E 2、Midjourney到Stable Diffusion这些火爆全网的AI作画工具,从“线上排队作画”到如今我们利用家中搭载消费级显卡的PC就能进行AI作画,AI与普通消费者的距离越来越近,几乎每个人都有机会感受AI创作带来的巨大想象力。
游戏、创作、绘画、视频……在英伟达“专业对口”的“图像生成”领域,RTX 40系显卡或许会成为这场生成式AI消费场景喷薄涌现大潮中的核心驱动力。
实际上,线上AI作画的背后,也是庞大的云端算力在做支持,是一个个规模庞大的数据中心中的千万张GPU在夜以继日地运算着。而这些GPU中绝大部分都是英伟达的产品。米乐m6官方网站
英伟达的GeForce RTX显卡,则可以让我们在自己家中或公司拥有“本地化”的AI作画体验。你不需要在线上排队等候,而且创作的即时性反馈更好,对于作品的调整空间也更大,从节约时间成本和提高内容质量的角度来说是一举两得。
以火爆全网的Stable Diffusion为例,它是目前最流行的从文本到图像生成式AI模型之一,它最主要的用途常常是让用户化身“艺术家”,进行图像艺术创作。
从原理上来看米乐m6官方网站,Stable Diffusion是一个基于潜在扩散模型(Latent Diffusion Models)的文本到图片生成模型。相比传统的扩散模型(Diffusion Models),其主要增加了“在一个潜在表示空间中迭代去噪的过程”,从而让整个过程可以运行在消费级显卡上,这也极大推动了AI作画的普及。
不过,使用Stable Diffusion这类AI作画工具所要运行的模型,对于硬件算力是有一定的要求的,并不是所有GPU都可以轻松胜任,即使能够通过特定优化算法缓解资源限制,其性能也会大打折扣。
首先,显存的大小,是AI作画的第一影响因素。Stable Diffusion发布之初,就对硬件提出了明确要求,比如Stable Diffusion v1的发布者CompVis就明确要求GPU的显存容量不能低于10GB。
虽然后续为了降低用户使用门槛,Stable Diffusion推出了一些硬件需求更低的版本,但这些版本在功能上和生成图片的质量上都受到了限制。
比如4GB显存的显卡在特定的模型分离方法下也可以运行,但生成的图像分辨率可能仅有512*512,清晰度大打折扣。因此,为保证AI绘图的流畅度和稳定性,用户最好选择一块8GB及以上显存的N卡。
借助英伟达拥有10GB或12GB显存的RTX 3080,或者更新一代配备了16GB和24GB显存的RTX 4080和RTX 4090,我们可以更快地生成拥有更好的特效、更高分辨率的图像,体验明显更上一个台阶。
如今英伟达已经将16GB这样的超大显存容量规格带到了RTX 4080这种次旗舰级别显卡中,普通消费者花费数千元就可以用上过去几万元的专业显卡才配备的显存容量并享受GeForce RTX不断更新的多项AI附加功能。
那么Stable Diffusion能否在其他品牌GPU中稳定高效运行呢?目前看来,Stable Diffusion的官方版本都没有支持AMD或者英特尔的显卡,只有一些“民间”的特殊版本对这些GPU做了针对性调整支持。
不过就实际使用过程来看,安装的流程往往十分复杂,并且支持的GPU型号极少,比如Stable Diffusion只能在最新一代AMD GPU中才可以运行,更早版本GPU都无法支持,适用范围比较受限。
另外,Stable Diffusion在N卡平台上的运行效率和稳定性更高,这也是目前AI内容创作者们在业内普遍达成的共识,其他品牌GPU在运行中出现“BUG”的概率会明显更高。
根据开发者们实际运行Stable Diffusion的反馈来看,RTX GPU的生态完成度更高,能够获得更完整、更稳定的体验,RTX GPU用户利用公开操作流程,基本都可以顺利在本地运行Stable Diffusion,出错概率较低。
当然,正如上文所说,出色的稳定性表现离不开英伟达CUDA拥有的规模庞大且富有高度粘性的开发者生态,目前大部分AI内容生成所用到的大型模型,都能在CUDA环境中获得更好的训练效果。
可以说,CUDA在开发者圈子中的“不可替代性”是十分凸显的,这也是英伟达RTX 40系显卡能够成为AI作画关键硬件支撑的根本原因之一。
在可以预见的未来,在Stable Diffusion、Lora等AI作画工具持续快速迭代发展的大背景下,不管是普通消费者、专业创作者还是企业用户,无疑都会更多选择RTX GPU作为AI内容创作的底层硬件支持。
正如英伟达CEO黄仁勋所说,英伟达是一家“全栈的计算加速公司”。从GPU硬件到系统软件和各类AI算法,英伟达均有布局,并已经将这些技术“武器”整合了起来,对外进行开放赋能,构建属于自己的AI生态系统。
在以AI作画为代表的生成式AI大潮之外,如果我们将目光放到整个AI产业的发展,英伟达在其中不仅起到了核心芯片硬件供应商的作用,同时英伟达发布的一系列AI算法以及集成了这些算法的软件生态,也将深刻影响AI产业的发展。
比如借助AI驱动的DLSS 3技术,英伟达几乎颠覆了游戏产业的传统玩法,借助RTX 40系显卡,普通玩家可以在几乎不牺牲图像质量和响应延迟的情况下,获得最高2-3倍的游戏帧率提升,而游戏开发者们则可以在DLSS技术的帮助下,更多将精力放在游戏内容的打磨上,而非硬件性能的优化。
从2018年英伟达首次发布DLSS技术至今天的DLSS 3,AMD、英特尔等厂商都已经推出了与DLSS类似的技术,如AMD的FSR技术、英特尔的XeSS技术,这也证明了英伟达方向的正确性和前瞻性。
刚刚,英伟达又在视频领域带来了一项颇具颠覆性的技术RTX VSR,这项技术的全称为“RTX 视频超分辨率技术(RTX Video Super Resolution)”。正如它的名字一样,这项技术能够借助RTX显卡来实时提升视频的分辨率。
值得一提的是,DLSS技术重在提升图像呈现时的流畅度,而这项RTX VSR技术则重在提升图像的清晰度,可以说从流畅度和清晰度入手,英伟达算是把“图像处理”这件事给全方位地“玩明白了”。
此前英伟达已经通过NVIDIA Broadcast在直播领域推出的语音增强、噪声消除、虚拟背景、人像跟踪、视频降噪、目光接触等一系列AI技术加持的功能,显著提升了直播的体验,解决了视频“制作端”的问题。
在今天这个“视频当道”的时代,各大流媒体视频几乎霸占了所有人的手机屏幕、电脑屏幕,而我们在显示器上观看视频的体验实际上是有很大提升空间的。
比如现在主流视频平台的视频分辨率通常是1080P,当我们使用2K或者4K显示器观看这些视频时,大多数浏览器都会采用传统的视频分辨率提升技术(Upscaling),而这种技术会导致图像清晰度下降以及一系列衍生问题。
借助RTX VSR技术,使用RTX 40系和RTX 30系显卡的用户就可以将低分辨率视频通过AI技术实时提升到更高分辨率,从而与显示器分辨率相匹配,获得更好的画质体验。
同时,AI技术可以在这个转换过程中自动消除一些块状压缩伪影(blocky compression artifacts),并且对图像细节也会有更好的还原,减少丢失的纹理效果,此外AI会通过锐化进一步使图像边缘更加清晰。
目前新版的谷歌Chrome浏览器、微软Edge浏览器都可以支持RTX VSR技术,我们可以在使用这些浏览器观看B站、虎牙、斗鱼等主流视频平台内容时享受到这种便捷地“高清”体验。另外,使用这些浏览器观看本地视频也同样有效。
值得一提的是,英伟达这项RTX VSR技术的适用性非常强,因为它可以默认集成于最新版的GeForce驱动中,直接通过Windows系统中的NVIDIA控制面板来开启,GPU驱动层对于这项技术的支持,可以显著降低其普及的门槛。
“能够让一项新功能、新技术快速落地,应用在全球数以亿计的用户的PC上”,或许这才是英伟达最不可替代的竞争力所在。
正如前文所说,英伟达在AI技术领域,已经实现了从底层芯片硬件到上层软件、算法的全链条布局。这种优势可以让他们为整个市场的各端用户都提供针对性的AI技术赋能,来提升他们的使用体验。
比如面向内容创作者,NVIDIA Studio生态系统中的技术可以显著提升工作效率,提升创作者们的硬件运行性能。而NVIDIA Omniverse的各类AI技术创新,则颠覆了传统游戏行业的协作模式,打破了游戏开发软件之间的生态壁垒,大幅提升了游戏开发效率。
面向消费者们,DLSS 3的出现,给PC、笔记本电脑游戏体验带来了“质变”式的升级,此次RTX VSR的出现,则让消费者们在观看视频内容时获得更好清晰体验。
可以看到,从ChatGPT到Stable Diffusion,从聊天对话到绘画作图,AI内容生成时代已经到来,而出色的GPU性能无疑是拥有良好AI内容创作体验的基础。
不论是AI参与内容生产,还是AI改善内容生产,我们都能看到英伟达RTX GPU在其中扮演着关键角色。未来GeForce用户还会享受到来自英伟达的RTX GPU还会有越来越多的“功能喜+1”,而这些新功能的出现,也将成为更多行业中的关键变量。