新闻资讯
发布时间:2024-12-06 10:31:00点击量:
华体会,华体会体育,华体会体育官网,华体会靠谱吗,华体会APP(访问: hash.cyou 领取999USDT)
然而,在视频生成“赛道”,腾讯大模型并非做得最早的,有国内视频生成模型已开始商业化“落地”。为此,腾讯混元的多模态生成技术负责人凯撒在接受全媒体记者采访时表示,“我们确实看到很多产品和模型有先发优势。但是我们做视频生成模型时发现,现在视频生成特别是文生视频领域,成熟度远没有外界想象得那么高。”他指出,腾讯看来目前该技术还没能达到大规模商业化的程度,仍属于技术打磨阶段。当下,腾讯推出视频生成模型,并且选择开源是希望跟社区一起把技术早日推向图像生成等这种真正可用的状态。
腾讯方面表示,混元的技术创新在于,它基于跟Sora类似的DiT架构,并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D 变分编码器),让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。