-
EMO (Emote Portrait Alive) – 阿里创新音频驱动型肖像视频生成框架
EMO (Emote Portrait Alive) 是由阿里巴巴集团智能计算研究院的研究团队开发的创新音频驱动型肖像视频生成框架。该系统以音频信号为驱动,生成栩栩如生的肖像视频。用户仅需提供一张参考图片和音频文件,如说话或唱歌的声音,EMO便能根据音频内容生成一段生动的视频。在视频中,人物将展现丰富的面部表情和多样的头部动作,仿佛图片中的人物正在说出或唱出你提供的音频内容。EMO系统的出色之处在… -
GPT-4 – OpenAI 开发的最新一代大型语言模型
GPT-4(Generative Pre-trained Transformer 4)是由 OpenAI 开发的最新一代大型语言模型。它是一个多模态模型,能够接受图像和文本输入,并产生文本输出。GPT-4 在各种专业和学术基准上表现出了接近人类的水平,例如通过模拟律师资格考试的前10%。此外,GPT-4 支持更长的上下文窗口,处理复杂任务的能力有显著提升,同时在生成过程中的逻辑性和准确性上也有所改… -
天工AI – 双千亿级大语言模型/搜索/对话/写作助手
天工AI是由昆仑万维和奇点智源合作自研的国产大型语言模型,具备强大的数据处理能力和深度学习能力,能够迅速适应各种复杂场景。它拥有高度智能化的算法,在语音识别、图像识别、自然语言处理等方面取得了显著成果。天工AI的应用非常广泛,可以应用于工业制造、金融服务、医疗健康、教育培训等领域。具体来说,天工AI可以应用于生产线自动化、质量控制、设备维护等方面,提高生产效率,降低成本;能够进行风险评估、客户画像… -
智源悟道大模型 – 智源研究院开源万亿级人工大模型
智源悟道大模型是由北京智源人工智能研究院发布的一系列大模型。其中,悟道3.0大模型系列包含悟道·天鹰(Aquila)语言大模型系列、“天秤(FlagEval)”大语言评测体系及开放平台以及悟道·视界视觉大模型系列。悟道3.0大模型具有多种优点和特性。首先,它规模大、涌现性强,并具有通用性,可以更好地解决各种复杂问题,提高AI技术的应用价值。其次,悟道3.0大模型可以处理多维度数据,提供更全面的数据… -
Sora- OpenAI 最新发布的文本生成视频模型。
Sora是 OpenAI 最新发布的文本生成视频模型。它可以根据用户提供的文本描述,生成长达一分钟的全动态视频,1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。并在单个生成视频中创建多个镜头,准确保留角色和视觉风格。这意味着用户只需提供一个场景的描述,Soras 就能够将其转化为视频。 官网入口:https://openai.com/ 主要功能特点: 文本到视频生… -
Lumiere – 谷歌推出的AI文本到视频生成模型
Lumiere 是由谷歌公司研发。一种先进的文本生成视频的编辑工具,它采用了时空U-Net(STUNet)架构,这种架构的设计重点在于提高AI生成视频中运动的真实感。Lumiere AI的核心功能之一是支持文本到视频和图像到视频的转换。用户可以通过自然语言提示或图片风格指定,让静止的图像动起来,或者生成一系列类似风格主题的视频。具体来说,Lumiere AI通过空间和时间的下采样及上采样过程,结合… -
讯飞星火大模型 – AI大语言模型/科大讯飞星火大模型
讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务,提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。 官网入口:https://xinghuo.xfyun.cn/sparkapi?ch=gjx 主要功能特点: 文本生成:可以创作商业文案、营销方案、英文写作、新闻通稿等。 语言理解:支持机器翻译、文本摘要、…