3D Human-Object Interaction in Video

A New Approach to Object Tracking via Cross-Modal Attention

Qualitative results of H2O-CA on BEHAVE. Simplified GT mesh in green, simplified prediction mesh in red. GT human mesh in blue.

Camera1

Camera0

Camera3

Camera1

Camera3