今日,由中央广播电视总台制作的中国首部文生视频AI动画片《千秋诗颂》在CCTV-1频道正式开播,以7分钟左右的动画演绎了唐诗《别董大》背后的故事。 该动画为水彩画风格,着重突出人物,十几个出场的动画人物男女兼有,着不同样式的唐装,动画片里的家具、器皿也均依唐制,出现了唐代“七星盘”茶具、仿陕西历史博物馆透雕忍冬纹五足银熏炉的熏香炉等。对观看动画的小朋友来说,“画而有据”可以帮助他们更好地了解中华各朝代的时物风俗。 客观而言,该动画片略显稚嫩,画面背景被模糊处理,略显粗糙,不强调人物动作的连贯性。 据了解,《千秋诗颂》由“央视听媒体大模型”制作,美术设计、动效生成和后期成片等各环节均由AI辅助制作,上海人工智能实验室、超高清视音频制播呈现国家重点实验室为其提供技术支持,片尾的演职人员表也专门介绍了负责“人工智能及技术监制、统筹、制作”的老师们。 “央视听媒体大模型”由上海人工智能实验室与中央广播电视总台在去年7月联合发布。这是国内首个专注于视听媒体内容生产的大模型,基于总台海量视音频媒体大数据和上海人工智能实验室“书生”基础大模型而来,包含新闻助手、数字人、文生视频、动画制作、场景渲染等功能板块。 另一个AI工具是上海人工智能实验室研发的文生视频大模型“书生筑梦”,该模型亮相于《千秋诗颂》的启播仪式上,是“书生”系列大模型之一,与文生视频框架Animate Diff以及可控图像生成、图像驱动等技术结合。其中,文生视频框架Animate Diff无需额外的数据收集和定制化训练,就能一次性、快速地为大多数个性化文本转图像模型提供动画效果。用这个框架制作的AI视频已亮相今年央视春晚,成为歌曲《枕着光的她》中温馨的动画背景。 该AI模型已经开源,授权用户单位免费商用。它的参数量超过30亿,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。 有了上述AI工具,大模型是如何生成这部动画片的?上海人工智能实验室领军科学家林达华博士此前展示了一些制作环节:在“央视听媒体大模型AIGC动画制作”界面上,上传一张唐朝青年男子的“参考风格图片”,随后在“概念设计描述”文本框里输入“中国风,唐朝,中年,清秀,男性,淡绿色衣服”,几秒钟后,一个符合这些提示词的动画人物形象就出现在屏幕上。 输入提示词,迅速得到人物立绘,这无疑可以大大节省动画人物美术设计的大量人力和时间成本。据介绍,在同等预算条件下,按照传统动画制作流程计算,《千秋诗颂》至少需要8个月时间,依托大模型后,制作周期缩短至4个月。 目前,我国视频生成模型与Sora等世界先进技术还存在一定差距,林达华坦言,“由于数据、算力等资源限制,‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。” 不过,这部动画的意义在于试水,对于古诗词的理解,也不能单凭AI技术,打造优质中文语料库至关重要。总台已在2023年与上海人工智能实验室等多家机构共同发起成立“中国大模型语料数据库联盟”,推动产学研各界共同参与数据生态建设,为生成式人工智能的发展奠定数据基础。 目前,这项应用仍处于产研结合阶段,未来大模型研发成熟后,制作周期和动画精细度都会加速迭代升级。