就能实时渲染出丝滑3D效果 3D实时渲染


就能实时渲染出丝滑3D效果 3D实时渲染

文章插图
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
这般丝滑的美食展示 , 是否让跟随镜头移动的你食指大动?
再看这放大镜里流畅变化的弹簧 , 你敢相信 , 这完全是用静态图像合成的吗?
没错 , 这样的动图并非截自视频 , 而是来自AI的合成大法 。
甚至只需手机随手拍摄的十几张2D照片 , 就能实时渲染生成 。
比起大名鼎鼎的谷歌前辈NeRF , 这只名为NeX的AI , 能直接把每秒渲染帧数从0.02帧提升到60帧 。
也就是说 , 渲染速度能提升3个数量级
细节之处 , 也更加接近真实效果 。
这项已经入选CVPR 2021 Oral的研究 , 是怎么做到的?
像素参数与基函数结合多平面图像(MPI)视图合成技术 , 使得不用3D建模 , 只用少数几张图像还原多视角逼真3D效果成为可能 。
不过 , 此前的MPI主要采用的是标准RBGα表示法 , 简单说就是把图像转换成RGBα平面 , 以进行后续的计算 。
这样做的局限性在于 , 其表示出的物体外观仅与漫反射表面有关 , 与视角无关 。
这就极大地限制了MPI可以捕捉的物体和场景类型 。
为此 , 来自泰国科学技术研究所VISTEC的研究人员提出:将每个像素的参数转化为基函数的系数 , 进行线性组合 , 并以此创建与视图相关的效果模型 。
就如上图所示 , 多平面图像中每个像素都由alpha透明值、基色k0和视图相关的反射系数k1…kn组成 。
将这些系数和神经网络预测的基函数进行线性组合 , 就产生了最终的颜色值 。
如此一来 , 像金属勺子在不同视角下的反射效果这样的信息 , 都能在合成图像中显示出来 。
具体到整个NeX的结构 , 对于输入图像 , 首先根据不同平面深度 , 对像素坐标(x , y)进行采样 , 以构建出MPI中的每个像素 。
然后 , 把这个数据喂给多层感知机(MLP) , 得到alpha透明度 , 以及和视图相关的基础系数(k1 , k2 , … , kn) 。
这些系数再与显式的k0一起 , 与另一个MLP预测的基函数相乘 , 生成RGB值 。
输出图像 , 如公式1所示 , 为所有平面复合运算的结果 。
而在细节效果的提升方面 , 研究人员人员发现 , 通过比较渲染图像和真实值之间的差距 , 对基色k0进行优化 , 就可以得到很好的效果 , 显著减轻网络压缩和细节重现的负担 , 减少迭代次数 。
研究人员还补充说 , NeX可以被理解成是隐式辐射场函数的离散抽样 。
至于实时渲染 , 论文指出 , NeX MPI中的每一个模型参数都可以转换为图像 。而给定预先计算好的图像 , 就可以在OpenGL/WebGL的片段着色器中实现上述公式1 , 实现捕获场景的实时渲染 。
实验结果有NeRF珠玉在前 , NeX具体到数据上 , 到底有怎样的提升?
运行时间方面 , 输入17张分辨率为1008×756的照片 , 批量大小为1的情况下 , 使用单个英伟达V100训练 , NeX的耗时大概为18小时 。
使用WebGL , 此场景可以以每秒60帧的速度被渲染出来 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: