-
lmagen 3 – google推出的文生图大模型
Imagen 3 是由谷歌公司的人工智能研究部门 DeepMind 开发的一款先进的文本到图像生成技术。它能够更准确地理解文字提示,并将其转化为高质量、具有创造性和细节的图像。Imagen 3 在生成图像时,错误和干扰元素更少,能够产生多种风格的图像,如漫画、写实、赛博朋克、水墨、油画和素描等。此外,为了防止 Deepfake 的潜在问题,Imagen 3 使用了一种名为 SynthID 的方法,… -
言犀 – 京东推出智能人机交互平台/帮助企业智能化转型升级
言犀是京东推出的一款智能人机交互平台。它主要利用AI技术,从文字、语音到多模态交互,从对话智能到情感智能,为不同行业和客户场景提供服务数智化转型的解决方案。言犀的产品和服务包括基于全自研AI技术和“双中台”引擎,支持各应用产品的灵活扩展和数据共享。结合各行业数据和业务痛点,为政务、金融、零售、教育等领域提供客户服务、营销、流程自动化的智能化解决方案。言犀大模型立足产业的AI大模型,面向零售、金融、… -
InstructAvatar – 用于生成 Avatar 的文本引导式情感和运动控制
InstructAvatar是一项先进的AI框架,它允许用户通过文本指令来控制虚拟角色的情感和动作。这项技术的核心在于它的自然语言界面,使得用户可以通过简单的文本输入来精确地控制角色的表情和动作。技术上,InstructAvatar利用了一个自动化的注释流程来构建一个指令-视频配对的训练数据集,并配备了一个新颖的双分支扩散式生成器。这个生成器能够同时预测音频和文本指令下的虚拟角色。实验结果表明,I… -
V-Express – 腾讯推出的动态视频生成工具
V-Express是由南京大学和腾讯AI实验室共同开发的一项技术,它可以将单张照片生成为视频。这项技术能够根据不同的信号控制视频内容,例如声音、姿势、图像参考等。它特别注重确保即使是弱信号,比如音频,也能有效地影响视频生成,使得生成的视频更加逼真和多样化。最近的更新包括优化内存使用,支持生成更长的视频,以及发布了技术报告。如果你对这个项目感兴趣,可以在GitHub上找到相关的代码和模型。 官网入口… -
孟子生成式大模型 – 澜舟推出的生成式可控大语言模型
孟子生成式大模型,也被称为孟子 GPT,是由澜舟科技研发的一款功能强大的生成式可控大语言模型。它能够通过多轮对话,在特定场景中帮助用户完成各种工作任务,包括内容生成、语言理解、知识问答、推理、代码理解和生成、金融任务等。这个模型结合了最新的语言模型技术,通过理解和生成自然语言,为用户提供智能而直观的操作体验。它支持多种复杂任务,如角色扮演、阅读理解、文案写作等,并具有丰富和强大的基础能力。此外,孟… -
视界一粟Yisu – 中国首个超时长sora级视频生成大模型
视界一粟 YiSu是由北京极佳视界科技有限公司联合清华大学自动化系研发的视频生成大模型。这个模型可以生成超过1分钟的视频,并且具有超大运动、超强表现力等优势。此外,YiSu模型的成本更低、速度更快,适用于大规模产品应用。此外,视界一粟Yisu不仅仅是一个视频生成模型,它还是向世界模型迈进的重要一步。世界模型对于自动驾驶通用机器人等物理世界的通用智能至关重要,在数据生成、闭环仿真、端到端方案等方面都… -
可灵大模型 – 快手打造的视频生成大模型
可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型。它具备强大的视频生成能力,能够生成长达2分钟、1080p分辨率的视频。可灵大模型采用3D时空联合注意力机制,能够生成符合物理规律的大幅度运动视频,并模拟真实世界的物理特性。这个模型可以将用户的文本描述转化为具体的画面,生成电影级的高质量视频。它支持多种视频宽高比,适用于多样化的视频制作和内容创作需求。除了强大的视频生成能力外,可灵… -
可图大模型KOLORS – 快手自研的文生图大模型
可图大模型KOLORS是快手自研的文生图大模型,它具备强大的图像生成能力,致力于将人工智能与艺术创作相结合。支持文生图和图生图两类功能,已上线20余种AI图像玩法。目前,用户可以通过“可图大模型“官方网站和微信小程序,免费使用各项Al图像功能。值得注意的是,可图只需一张图片和几秒钟时间,便可生成一套AI图像。 官网入口:https://kolors.kuaishou.com/ 主要功能特点: 文生… -
Kimi智能助手 – 帮你看更大的世界
Kimi是由月之暗面科技有限公司(Moonshot AI)开发的一款人工智能助手,旨在为用户提供高效、便捷的信息服务。是一个有着超大“内存”的智能助手,可以一口气读完二十万字的小说,还会上网冲浪。Kimi智能助手致力于提供个性化的服务,以满足用户的不同需求。无论用户在何时何地,Kimi都能提供实时、准确、有用的信息和服务。 官网入口:https://volctrack.com/w/Wz0H7oRm… -
天壤小白大模型 – AI场景应用开放平台
天壤小白大模型是基于语言大模型的AI应用开发平台,无需代码开发,就能快速、灵活搭建个性化的AI应用。可以帮助用户实现知识客服、广告文案、总结摘要、多语言翻译、新闻稿写作、会议提纲等多个场景的AI应用服务。同时提供了一些AI工具组件,如语义搜索、向量数据库等,以及一些AI场景应用的示例。 它是一个专业的AI技术和服务提供商,为企业、政府机构和个人提供可靠、定制化的大模型解决方案。另外还有一个天壤智能… -
怪兽AI知识库大模型 – 企业知识库大模型/智能AI问答机器人
怪兽智能一站式AI企业知识库搭建系统,企业知识库大模型训练,智能企业客服,先进的企业知识库 + 智能的AI问答机器人,轻松集成在直播平台/网站/APP/小程序等三方应用做电商智能问答客服,企业聊天机器人,直播回复。怪兽AI知识库大模型集企业知识库与智能AI问答于一体的平台。通过零代码方式,企业可快速搭建并管理知识库,支持多人协同工作,确保信息安全。怪兽AI的AI问答机器人能精准回复用户问题,提升客… -
商汤商量拟人大模型 – 商汤科技AI拟人大模型/情感交流新体验
商汤商量拟人大模型是商汤科技(SenseTime)研发的一款高度拟人化的AI模型。该模型利用先进的自然语言处理(NLP)和深度学习技术,为用户创造出具有独特个性和深度的虚拟人物。这些虚拟人物能够在各种场景和应用中与用户进行自然而流畅的交互,提供情感陪伴、角色互动、AI分身和游戏角色扮演等多种功能。 官网入口:https://character.sensetime.com/character-wb/… -
阿里云百炼 – 通义大模型/自然语言处理,助力企业全面AI转型
阿里云百炼是一个基于通义系列大模型和开源大模型的一站式大模型服务平台。该平台集成了国内外主流优质大模型,并提供了模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。该模型旨在帮助企业和开发者快速构建、部署和应用大规模人工智能模型。它支持开箱即用的应用调用、大模型训练微调以及一站式在线灵活部署,能够满足多种AI应用场景的需求。… -
华知大模型 – 同方知网与华为联合研发的中华知识大模型
华知大模型是由同方知网与华为公司联合研发的一款专业基础大模型。这款模型基于先进的人工智能技术,旨在为教育、科研、政务、医疗、企业等多个领域提供精准、高效的知识服务。华知大模型结合了同方知网在知识服务领域的深厚积累与华为公司在人工智能领域的先进技术,通过整合海量的高质量语料数据,为用户提供全面、丰富的知识资源。它不仅可以处理传统的文本数据,还能处理图像、音频等多模态数据,实现更广泛的信息获取和理解。… -
Imagen 3 – 谷歌推出最新文生图模型
Imagen 3 是由 Google DeepMind 开发的最新文本到图像(Text-to-Image)生成大模型,该模型于2024年5月14日(美国当地时间)在谷歌的I/O开发者大会上震撼发布。Imagen 3 凭借其卓越的性能,能够精准地根据文本提示生成高质量、高分辨率的图像,其细节丰富、光照效果出色,为用户带来了前所未有的视觉体验。该模型支持多种视觉风格,无论是追求照片级的真实感,还是偏爱… -
Veo – 谷歌DeepMind推出的高分辨率、长视频生成AI模型
Veo是谷歌DeepMind推出的一款AI视频生成模型,它能够根据简短的文本描述或图像生成高质量的视频内容。该模型支持使用文本生成视频,能创建超过60秒的1080P视频,并支持多种电影风格和更好地理解自然语言。Veo对自然语言有深刻的理解,能够准确解析用户的文本提示,包括复杂的电影制作术语,如“延时摄影”、“航拍”、“特写镜头”等,从而生成与用户描述相符的视频内容。此外,Veo还提供了创意控制层级… -
MagicVideo-V2 – 字节跳动开发的AI视频生成模型和框架
MagicVideo-V2 是一款由 字节跳动 公司团队开发的AI视频生成模型和框架。它通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,构建了一个端到端的视频生成流程。这款模型能够根据文本描述生成高保真度的视频内容,具有高分辨率和平滑度的特点,为用户提供极佳的观看体验。 官网入口:https://magicvideov2.github.io/?ref 论文地址:https:/… -
百川智能 – 汇聚世界知识,创作妙笔生花
百川智能是一家由王小川和茹立云联合创立的中国公司,专注于研发并提供通用人工智能服务。融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。该公司旨在打造中国版的OpenAI基础大模型及颠覆性上层应用。百川智能的发展历程非常迅速。自2023年4月10日王小川官宣创办以来,公司已经在人工智能领域取得了显著的成果。公司核心团队由来自搜狗、百度、华为、微… -
腾讯混元大模型 – 腾讯全方位自研的大型通用语言模型
腾讯混元大模型(Tencent Hunyuan Large Model)是腾讯公司推出的一系列超大规模的人工智能模型,旨在通过深度学习和自然语言处理等技术,实现更智能、更自然的人机交互。这些模型在多个领域展现出强大的能力,包括自然语言理解、生成、多模态处理以及跨语言处理等。 官网入口:https://hunyuan.tencent.com/ 主要优势能力: 多轮对话: 具备上下文理解和长文记忆能力… -
Outfit Anyone – 阿里推出的虚拟试穿技术模型/为您打造个性化虚拟试穿体验
Outfit Anyone是阿里巴巴推出的一种虚拟试穿技术,它利用先进的人工智能和机器学习技术,为用户在照片上提供高质量和细节一致的虚拟试穿效果。这种技术可以适应不同的姿势和身材,甚至可以在动漫角色上试穿服装。Outfit Anyone代表了AIGC领域的一个重要进步,它不仅为用户提供了全新的购物和试穿体验,使选择更加多样化和个性化,还为设计师和品牌提供了新的展示和营销工具。Outfit Anyo… -
DDColor – 阿里达摩院研究的基于深度学习技术的图像上色模型
DDColor是一个由阿里达摩院研究的基于深度学习技术的图像上色模型。它能够自动将黑白或灰度图像着色,使图像更加生动逼真。该模型采用了先进的神经网络架构和训练技术,能够识别图像中的物体和场景,并为其添加逼真的颜色。DDColor通过双解码器结构来提高色彩化的质量,使用多尺度视觉特征来优化可学习的颜色标记(即颜色查询),并在自动图像着色方面实现了先进的性能。这种技术不仅为历史黑白照片赋予了新的生命,… -
Etna模型 – 七火山科技开发的文生视频AIGC模型/能生成15秒4K视频
Etna模型是由七火山科技开发的文生视频AIGC模型,它能够根据用户简短的文本描述,自动生成相应的视频内容。这一技术的出现,标志着AI在视频内容创作领域迈出了重要一步。Etna模型在语言模型和图像模型中插入时空卷积和注意力层,能够处理视频数据,即考虑图像序列中的时间连续性,拥有一定的时空理解能力,可以理解并生成具有时间维度的视频内容。该模型采用了最新的神经网络架构,将Transformer模型的语… -
MuseV – 腾讯推出高保真虚拟人视频生成框架
MuseV由腾讯音乐娱乐的天琴实验室所研发,基于扩散的虚拟人类视频生成框架,主要用于生成高质量的虚拟人视频和口型同步。它支持从图像到视频、文本到图像到视频、视频到视频等多种生成方式,能够保持角色一致性,且不受视频长度限制。MuseV代表了虚拟人制作和AI新技术的发展方向。未来,它有望在娱乐、教育、会议等多个领域发挥重要作用,为用户带来更加丰富和真实的虚拟体验。 官网入口:https://huggi… -
云雀大模型 – 字节跳动研发基于注意力机制的深度学习语言模型
云雀大模型是字节跳动研发的一种基于注意力机制的深度学习语言模型,非常适合处理自然语言处理任务。它使用了Transformer架构,具有良好的并行性和效率,可以在大规模数据集上进行训练。云雀大模型能够根据输入的文本生成输出,并捕捉语言中的语法、语义和上下文信息。据公开消息,云雀大模型的参数规模为1300亿,是目前国内最大的中文预训练模型之一。 官网入口:https://www.volcengine.…