我们提出了一种在单目摄像机和人都可以自由移动的情况下,预测密集深度的方法。现有的用于从单目视频恢复动态非刚性物体的深度的方法,对物体的运动施加了强烈假设,并且可能仅恢复稀疏的深度。在本文中,我们采用数据驱动的方法,从新的数据来源中学习人物深度先验:成千上万的人们模仿人体模型的互联网视频,即以各种自然姿势冻结,而手持摄像机则在现场浏览。因为人是静止的,所以可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人物动作的真实世界序列展示了我们的方法,显示了对前沿的单目深度预测方法的改进,并显示了使用我们预测的深度产生的各种 3D 效果。