摘要:SEINE是一种视频扩散模型,旨在生成高质量、创意且平滑的长视频过渡。该模型利用随机掩模模块和文本描述作为输入,以增强过渡视频的可控性。通过对潜在代码和屏蔽的建模和预测,SEINE能够生成逼真且视觉连贯的过渡帧,实现可见帧与未屏蔽帧的无缝混合。
SEINE(Scene-SElective INpainting of Video)是一种用于生成转换和预测的视频扩散模型,旨在制作高质量的长视频,实现场景之间的平滑且富有创意的过渡。该模型能够处理不同长度的镜头级视频,并生成视觉连贯的过渡帧。
SEINE集成了随机掩模模块,以根据可观察的条件图像或视频生成以前未见过的过渡和预测帧。该模型利用文本描述作为输入,以增强过渡视频的可控性,并利用短文本到视频生成的功能。通过屏蔽的潜在代码和屏蔽本身作为条件输入,SEINE确定哪些区域应该被屏蔽以及哪些区域应该保持可见。
训练过程中,SEINE可以预测影响整个损坏的潜在代码的噪声。为了实现这一点,模型需要学习噪声的基本分布,即影响未屏蔽帧和文本描述的噪声。通过对噪声进行建模和预测,SEINE旨在生成逼真且视觉连贯的过渡帧,将可见帧与未屏蔽帧无缝混合,从而实现高质量的视频过渡和预测。
SEINE的引入为视频生成领域带来了新的可能性。通过结合文本描述和随机掩模模块,该模型在生成过渡视频时具有更多的可控性和创意性。它可以应用于各种场景,例如电影制作、动画制作和视频编辑等领域,为创作者提供了强大的工具来制作视觉上引人注目的视频作品。
总结起来,SEINE是一种短到长的视频扩散模型,旨在生成高质量的长视频过渡和预测。通过集成随机掩模模块和利用文本描述,SEINE能够实现对过渡视频的可控性增强,生成逼真且视觉连贯的过渡帧。该模型为视频生成领域带来了新的创作可能性,并可应用于多个领域和场景。