跳转至

Title

IMUGPT

Intro

  • 基于HumanML3D一个带有文本描述的大型 3D 人体运动数据集(github 可搜)

Component

  1. LLM. 生成一个人执行特定活动的多样化文本描述。注意多样化。

  2. Motion Synthesis 接收活动的文本描述并将其转换为三维人体运动序列。

  3. Motion to IMU. IMU 惯性传感器组,估计是将动作变成可以被力学描述的数据。

Problem

  1. When to stop generate the data。影响性能。

  2. Data pollution 数据污染。

Application

Extension Intro

  1. Diversity Metrics due to problem 1。配合饱和点识别算法,标志文本生成的停止点。增加计算效率.

  2. Motion filter。过滤不准确描述动作,和可能对下游产生负面影响的运动序列。

Diversity Metrics

  • 假设运动序列和文本描述的多样性是相关的。由此可以通过计算文本描述的多样性来判断运动序列的描的多样性。

  • 计算文本描述多样性,通过生成数据的嵌入(数据的向量表示)

- 文本描述:将文本提示通过 SentenceTransformers 的 “all-mpnet-base-v2 模型”[1,64] 生成每个提示的嵌入。该模型在十亿个句子对上进行训练,以捕获其输入文本的语义信息,因此生成的嵌入可作为句子的合适表示。
- 运动序列:每个运动序列通过在 HumanML3D 数据集 [23] 上训练的模型生成序列的嵌入。该模型来自 Guo 等人 [23] 训练的运动特征提取器,在学术界被广泛使用 [86]。
  • 包含绝对多样性和比较多样性。

绝对多样性

  • 标准差法和质心法。

比较多样性

  • 文本描述生成过程首先生成初始描述集,然后将新生成的文本描述批次依次附加到现有描述集。如果添加新批次的文本描述能提高现有集合的多样性,则有充分理由继续生成新批次,因为这将增加虚拟 IMU 数据的多样性,从而提升下游性能。相反,如果多样性没有提高,则不应生成新批次。比较多样性的目标是量化添加新批次到现有集合时多样性的变化。

  • 两个嵌入集之间的比较多样性使用最大均值差异(MMD)测试 [22] 计算。MMD 是一种基于核的统计测试,用于判断两个给定样本集是否来自同一分布。值越高,表示两个样本集的分布差异越大。

  • 给定空间和独立同分布样本。因此,我们将任意两个嵌入集解释为来自两个分布,并计算这些分布之间的 “距离” 作为多样性差异。如果两个嵌入集的分布相似,则它们的多样性也相似,相应地,这对集合的 MMD 值将较低。后续章节将详细介绍如何利用比较多样性停止生成过程。

饱和点

  • 基于前一节介绍的比较多样性度量,我们的目标是利用该指标在生成的描述集达到饱和时(即生成更多文本描述不会提高现有集合的多样性)停止文本描述生成。为确定这一停止点,我们提出了饱和点识别算法(算法 1)。

  • 给定现有文本描述集 S(大小为 n),该算法迭代生成新的描述批次,并测试将新批次添加到现有集合是否会显著改变比较多样性。新批次的大小是现有集合大小的一定百分比,是一个可调整的超参数。百分比设置越高,接近饱和点的步长越粗糙。

筛选错误生成的运动序列

IMUGPT 的另一个局限性是运动合成模型可能生成不能准确描述目标活动的运动序列,导致提取的虚拟 IMU 数据不相关,可能降低下游性能。为解决这一问题,我们提出了一种运动过滤器,可筛选出错误生成的运动序列。

图 3 展示了运动过滤器的工作原理。为确定给定运动序列是否准确描绘目标活动,首先使用运动 captioning 模型 [30] 处理运动合成模型生成的序列,该模型输出运动序列的文本描述。然后,由 LLM 评估生成的运动 caption,提供 “是” 或 “否” 的二元答案,指示该 caption 是否准确描述了特定活动。LLM 的输出使我们能够筛选出任何错误生成的运动序列。