跳转至

Part-Coordinating Text-to-Motion Synthesis

INtro

  • 将运动生成 Deapart 。 具体来说方法包括两个阶段。在第一阶段,我们将全身运动具体化为多个部分运动,并使用 VQ-VAE 对其进行量化,为下一阶段提供“什么是部分”的先验知识。在第二阶段,我们使用多个能够相互通信的零件协调变压器来生成不同零件的协调运动。这些部分运动随后被整合到全身运动中。在HumanML3D [14]和KIT-ML [48]上的大量实验表明,我们的方法可以生成与语义描述相符的逼真且协调的运动。
  • 人体运动合成。人体运动合成领域的任务分为两大类:无条件运动生成和条件运动生成。这些任务的分类基于所采用的输入信号。无条件运动生成[50,65,70,71],如VPoser[44]和ACTOR[46],是一项涉及整个运动空间的模制的综合任务,仅利用运动数据进行训练和预测。人体运动预测是一个高度动态的领域,旨在根据观察到的运动来预测未来的运动。另一个重要的领域是“中间”运动的产生,它填补了过去和未来位姿之间的空白[11,17,18,25,59]。无条件运动生成组合利用非常适合处理顺序数据的模型,包括重行[7,12,41,45]、生成对抗[5,21]、图卷积[40]和注意力[39]方法。这可以通过同时处理空间和时间信号来高效生成不同的运动。条件运动生成涉及各种多模态数据类型,包括文本[2,14,15,26,47,62]、遮挡姿势序列[11,18,62]、图像[9,53]和声音[31‒33]。由于NLP的快速发展,文本驱动的人体运动生成一直保持着明显的活跃状态

Method

  • 我们的方法包括两个阶段,在了解零件运动的情况下生成运动。在第一阶段,我们将全身运动离散化为多个部分运动,为第二阶段提供“什么是部分”的先验知识。第二阶段的目标是使模型能够学习零件的概念,并实现多个零件运动发生器之间的相互协调。通过这种设计,我们的方法可以处理涉及不同部分的文本输入,并生成与文本中的语义描述一致的人体运动