开云体育(中国)官方网站接下来是腾讯混元视频生成主推的功能之一-云yun开·体育全站app(kaiyun)(中国)官方网站登录入口

热点资讯

开云体育(中国)官方网站接下来是腾讯混元视频生成主推的功能之一-云yun开·体育全站app(kaiyun)(中国)官方网站登录入口

发布日期：2024-12-17 02:53 点击次数：186

腾讯版 Sora开云体育(中国)官方网站，发布即开源！

130 亿参数，成为现时参数目最大的开源视频生成模子。模子权重、推理代码、模子算法等全部上传 GitHub 与 Hugging Face，少量没藏着。

骨子效力若何呢？

不瞒你们说，我确切看见一只大熊猫，在跳广场舞、吃暖锅、打麻将，请看 VCR：

到底是来自四川的猫！

现时该模子已上线腾讯元宝 APP，用户可在 AI 运用中的" AI 视频"板块请求试用。

API 同步灵通测试，培育者可通过腾讯云接入。‍‍‍‍‍‍‍

腾讯混元视频生成主打四大特色：

超写实画质，模子生成的视频内容具备高清质感、信得过感，可用于工业级营业场景举例告白宣传、创意视频生成等营业运用。

高语义一致，用户可以进行缜密的描述，举例生成主体的细节，东说念主物意见的组合等。模子可以准确的抒发出文本的内容。

畅通画面畅达，可生成大幅度的合理畅通，畅通镜头畅达、安妥物理规矩，不易变形。

原生镜头鼎新，模子原生具备自动生成多视角同主体的镜头切换画面，增强画面叙事感。

那么骨子确认能否安妥形色？底下蚁集实例逐个拆解。

最初是冲浪题材，波及到画面大幅度畅通，水的物理模拟等难点。

辅导词中还特别指定了录像头的畅通，腾讯混元确认出畅达运镜的智商，仅仅在"终末定格在…"这个条目上稍显不及。

辅导词：超大波浪，冲浪者在浪花上起跳，完成空中转体。影相机从波浪里面穿越而出，捕捉阳光透过海水的骤然。水花在空中造成完好意思曲线，冲浪板划过水面留住轨迹。终末定格在冲浪者穿越水帘的完好意思骤然。

镜子题材，老到模子对光影的长入，以及镜子表里主体畅通是否能保执一致。

辅导词中的白床单位素又加大了难度，波及到的布料模拟，也安妥物理规矩。

不外东说念主们瞎想中的幽魂一般莫得脚，AI 似乎没学到，又或者是舞蹈波及无数腿部手脚，产生了破裂。

穿戴白床单的幽魂面临着镜子。镜子中可以看到幽魂的倒影。幽魂位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料消失的居品。阁楼的场景照耀在镜子中。幽魂在镜子前舞蹈。电影氛围，电影打光。

接下来是腾讯混元视频生成主推的功能之一，在画面主角保执不变的情况下自动切镜头，据了解是业界大部分模子所不具备的智商。

一位中国好意思女穿戴汉服，头发飘舞，配景是伦敦，然后镜头切换到特写镜头。

再来一个详细型的复杂辅导词，对主角外貌、手脚、环境皆有缜密形色，画面中还出现其他东说念主物，腾讯混元确认也可以。

特写镜头拍摄的是一位 60 多岁、留着髯毛的灰发须眉，他坐在巴黎的一家咖啡馆里，千里念念着天下的历史，他的眼睛聚焦在画外来往的东说念主们身上，而他我方则基本一动不动地坐着，他身穿羊毛大衣西装外衣，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有陶冶仪态，片尾他领路一点神秘的闭嘴含笑，仿佛找到了生命之谜的谜底，灯光格外具有电影感，金色的灯光，配景是巴黎的街说念和城市，景深，35 毫米电影胶片。

终末附上来自官方的写 prompt 小 tips：

用法 1：辅导词 = 主体 + 场景 + 畅通

用法 2：辅导词 = 主体 ( 主体形色 ) + 场景 ( 场景形色 ) + 畅通 ( 畅通形色 ) + ( 镜头说话 ) + ( 氛围形色 ) + ( 作风抒发 )

用法 3：辅导词 = 主体 + 场景 + 畅通 + ( 作风抒发 ) + ( 氛围形色 ) + ( 运镜格式 ) + ( 光辉 ) + ( 景别 )

多镜头生成：辅导词 = [ 场景 1 ] + 镜头切换到 [ 场景 2 ]

两个手脚生成：辅导词 = [ 主体形色 ] + [ 手脚形色 ] + [ 然后、过了一会等通晓词 ] + [ 手脚形色 2 ]

何如样，你学会了吗？

更多腾讯混元生成的视频，以及与 Sora 同辅导词 PK，还可以望望。

看完效力，再望望技艺层面有哪些亮点。

最初从官方评估限定看，混元视频生成模子在文本视频一致性、畅通质地和画面质地多个维度效力跳跃。

然后从现时公开贵府看，腾讯混元视频生成模子还有三个亮点。

1、文本编码器部分，依然适配多模态大模子

当下行业中多数视觉生成模子的文本编码器，适配的主如果上一代说话模子，如 OpenAI 的 CLIP 和谷歌 T5 及多样变种。

腾讯在开源图像生成模子 Hunyuan-DiT 中适配的是 T5 和 CLIP 的蚁集，此次更进一步，告成升级到了新一代多模态大说话模子（Multimodal Large Language Model）。

由此简略得到更强大的语义跟班智商，体当今简略更好地支吾画面中存在的多个主体，以及完成指示中更多的细节。

2、视觉编码器部分，扶助夹杂图片 / 视频测验，提高压缩重建性能

视频生成模子中的视觉编码器，在压缩图片 / 视频数据，保留细节信息方面起着瑕玷作用。

混元团队自研了 3D 视觉编码器扶助夹杂图片 / 视频测验，同期优化了编码器测验算法，显贵提高了编码器在快速驱动、纹理细节上的压缩重建性能，使得视频生成模子在细节确认上，特别是常人脸、高速镜头等场景有彰着提高。

3、重新到尾用 full attention（全闲散力）的机制，没灵验时空模块，提高画面畅达度。

混元视频生成模子接纳归拢的全闲散力机制，使得每帧视频的衔尾更为畅达，并能达成主体一致的多视角镜头切换。

与"分离的时闲隙散力机制"区别关预防频中的空间特征和时分特征，比较之下，全闲散力机制则更像一个纯视频模子，确认出更优胜的效力。

更多细节，可以参见完整技艺陈述～‍

官网：https://aivideo.hunyuan.tencent.com

代码：https://github.com/Tencent/HunyuanVideo

模子：https://huggingface.co/tencent/HunyuanVideo

技艺陈述：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

— 完 —

「MEET2025 智能往日大会」

火热报名中

定档 12 月 11 日！李开复博士、周志华陶冶、智源策动院王仲远院长皆来量子位MEET2025 智能往日大会研讨行业破局之说念了！

，不雅众报名通说念已开启！接待来到 MEET 智能往日大会，期待与您总共猜测智能科技新往日

傍边滑动检察最新嘉宾气势

点这里� � 关切我，难忘标星哦～

一键三连「点赞」、「共享」和「在看」

科技前沿进展日日再会 ~

上一篇：开云体育(中国)官方网站如果锻练对某个事件赋予零概率-云yun开·体育全站app(kaiyun)(中国)官方网站登录入口

下一篇：开yun体育网近6个月高涨10.15%-云yun开·体育全站app(kaiyun)(中国)官方网站登录入口

开云体育(中国)官方网站接下来是腾讯混元视频生成主推的功能之一-云yun开·体育全站app(kaiyun)(中国)官方网站 登录入口

发布日期：2024-12-17 02:53 点击次数：186

开云体育(中国)官方网站接下来是腾讯混元视频生成主推的功能之一-云yun开·体育全站app(kaiyun)(中国)官方网站登录入口