计算机科学 > 图形学
[提交于 2025年6月26日
(此版本)
, 最新版本 2025年6月27日 (v2)
]
标题: FairyGen:从单个儿童绘制的角色生成故事卡通视频
标题: FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
摘要: 我们提出FairyGen,一个自动系统,可以从单个儿童的绘画中生成以故事驱动的卡通视频,同时忠实地保留其独特的艺术风格。 与以往主要关注角色一致性和基本动作的讲故事方法不同,FairyGen明确地将角色建模与风格化背景生成分离,并结合电影镜头设计以支持富有表现力和连贯的故事讲述。 给定一个单独的角色草图,我们首先使用MLLM生成一个结构化的分镜脚本,其中包含指定环境设置、角色动作和摄像机视角的镜头级描述。 为了确保视觉一致性,我们引入了一个风格传播适配器,该适配器捕捉角色的视觉风格并将其应用于背景,忠实地保留角色的完整视觉身份,同时合成风格一致的场景。 一个镜头设计模块通过基于分镜脚本的帧裁剪和多视角合成进一步增强视觉多样性和电影质量。 为了动画化故事,我们重建角色的3D代理以推导出物理上合理的运动序列,然后用于微调基于MMDiT的图像到视频扩散模型。 我们进一步提出一个两阶段的动作定制适配器:第一阶段从时间无序的帧中学习外观特征,将身份与动作分离;第二阶段使用冻结身份权重的时间步移位策略来建模时间动态。 一旦训练完成,FairyGen可以直接渲染与分镜脚本对齐的多样化且连贯的视频场景。 大量实验表明,我们的系统生成的动画在风格上忠实,叙事结构自然运动,突显了其在个性化和引人入胜的故事动画方面的潜力。 代码将在https://github.com/GVCLab/FairyGen提供。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.