前言
最近两周的工作主要是在做方向的探索和相关论文的学习,这次的介绍会分为,项目介绍,论文学习,当前进度,未来计划
项目介绍
最近主要是尝试了两个大类的项目,第一个是视觉追踪,第二个是三维重建
视觉跟踪
视觉追踪的话,参考了这几个开源项目:
CoTracker: It is Better to Track Together (co-tracker.github.io)
VGGSfM: Visual Geometry Grounded Deep Structure From Motion
DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video
这里以Cotracker举例,大概的原理就是
输入:
- 视频图像序列
- 初始点位置和时间
处理:
- 图像特征提取以及处理
- 利用注意力机制实现跟踪
- 加入伪信息提高效率
输出:
- 带有轨迹信息的点坐标
应用原因
- 通过利用轨迹追踪模型可以实现机器人和运动物体的交互,例如跟随
- 如果能够得到不断运动的物体的信息,就可以规避动态的障碍物
- 如果能够预测未来物体的坐标信息,就能够更好的进行路径规划
核心代码
其中,pred_tracks就是预测出来的二维点,到时候可以利用三维重建出坐标点,只要将这个三维点加入RL中的奖励函数,就能够实现具体的任务目标
if args.checkpoint is not None:model = CoTrackerPredictor(checkpoint=args.checkpoint)else:model = torch.hub.load("facebookresearch/co-tracker", "cotracker2")model = model.to(DEFAULT_DEVICE)video = video.to(DEFAULT_DEVICE)pred_tracks, pred_visibility = model(video,grid_size=args.grid_size,grid_query_frame=args.grid_query_frame,backward_tracking