🔮 Spaeing the Unseen

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Haoyi Jiang¹, Liu Liu², Xinjie Wang², Yonghao He³,
Wei Sui³, Zhizhong Su², Wenyu Liu¹, Xinggang Wang¹
¹Huazhong University of Science & Technology, ²Horizon Robotics, ³D-Robotics

Installation

Please clone this project with --recursive.

pip install -r requirements.txt
pip install flash-attn --no-build-isolation

pip install submodules/vggt
pip install -e submodules/lmms-eval

Data Preparation

1. Pre-training

We utilize a combination of large-scale indoor scene datasets: ScanNet and ScanNet++.

2. Instruction Tuning

Video-centric VSI-Bench: We fine-tune our model on the VSI-590K dataset.
Image-based benchmarks: We use a composite training set aligned with VG-LLM.

Our processed annotations are available here. Please configure the local data and annotation paths in data/__init__.py before starting the training.

Training

1. Spa3R Pre-training

To train the Predictive Spatial Field Modeling (PSFM) framework from scratch:

export PYTHONPATH=.
python scripts/train_spa3r.py

2. Spa3-VLM Instruction Tuning

Set the pre-trained Spa3R path in the script: geometry_encoder_path=/path/to/spa3r.ckpt

bash scripts/train_vlm_sft.sh

Evaluation

To evaluate Spa3-VLM on spatial reasoning benchmarks:

bash scripts/eval_vlm.sh

Citation

If you find our work helpful for your research, please consider starring this repository ⭐ and citing our work:

@article{Spa3R,
  title={Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning},
  author={Haoyi Jiang and Liu Liu and Xinjie Wang and Yonghao He and Wei Sui and Zhizhong Su and Wenyu Liu and Xinggang Wang},
  journal={arXiv preprint arXiv:2602.21186},
  year=2026
}

License

This project is released under the MIT License.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
scripts		scripts
spa3_vlm		spa3_vlm
spa3r		spa3r
submodules		submodules
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🔮 Spaeing the Unseen

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Installation

Data Preparation

1. Pre-training

2. Instruction Tuning

Training

1. Spa3R Pre-training

2. Spa3-VLM Instruction Tuning

Evaluation

Citation

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 1

Languages

Folders and files

Latest commit

History

Repository files navigation

🔮 Spaeing the Unseen

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Installation

Data Preparation

1. Pre-training

2. Instruction Tuning

Training

1. Spa3R Pre-training

2. Spa3-VLM Instruction Tuning

Evaluation

Citation

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 1

Languages

Packages