Emu Video – Meta推出基于人工智能的文本图像生成视频编辑工具

Emu Video是Meta公司推出的一种基于人工智能的视频编辑工具。它能根据纯文本、纯图像或文本与图像的组合输入生成视频。这个创新的生成流程将视频生成分解为两个关键步骤：首先，根据文本提示生成一张图像；然后，利用这张图像和文本提示来生成视频。这种分解不仅简化了生成过程，还使得训练高质量视频生成模型变得更加高效。Emu Video 能生成分辨率高达 512 像素、每秒 16 帧、时长 4 秒的视频。它在视频质量和对文本提示的忠实度上表现出色，超越了许多现有的文本生成视频模型。

Emu Video – Meta推出基于人工智能的文本图像生成视频编辑工具插图

官网入口：https://emu-video.metademolab.com/

Emu Video的主要功能特点

因子化生成方法：Emu Video 采用了因子化生成方法，将视频生成过程分为两个步骤：首先根据文本提示生成静态图像，然后利用这些图像和文本生成视频。这种方法提高了视频生成的质量和效率。
高分辨率和高帧率：Emu Video 能生成分辨率高达 512×512 像素、每秒 16 帧、时长 4 秒的视频，在视频质量和文本忠实度方面表现出色。
多样化的生成内容：Emu Video 可以生成从现实到奇幻、动漫等多种风格的视频内容。用户可以通过文本指令生成各种场景和情节的视频。
简易性：与传统需要多个模型级联的方法相比，Emu Video 仅需两个扩散模型即可实现高质量的视频生成。
用户友好：Emu Video 允许用户通过简单的文本指令生成视频，适合社交媒体平台用户创作动画贴纸和 GIF。
基于文本生成视频：Emu Video可以根据输入的文本生成视频。你只需提供描述、故事情节或其他文本，它就能自动创建相应的视频。
图像生成：Emu Video首先根据文本生成一张图像，然后利用这张图像来生成视频。这种分解的方式使得训练视频生成模型更加高效。
高效且创新：Emu Video的生成流程简化了视频生成过程，同时保持了高质量的输出。

Emu Video – Meta推出基于人工智能的文本图像生成视频编辑工具插图1