CV

Education

PhD Hong Kong University of Science and Technology
Visiting Scholar KTH Royal Institute of Technology
Bachelar Zhejiang University

Work experience

Algorithm Researcher Alibaba Tongyi Lab

Publications

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

Yichi Zhang*, Weihao Yuan*‡, Yizhuo Zhang, Xidong Zhang, Jia Wan. “FocusVLA: Focused Visual Utilization for Vision-Language-Action Models”.

ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation

Fan Yang, Heyuan Li, Peihao Li, Weihao Yuan, Lingteng Qiu, Chaoyue Song, Cheng Chen, Yisheng He, Shifeng Zhang, Xiaoguang Han, Steven Hoi, Guosheng Lin. “ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation”.

OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression

Zhe Li, Weihao Yuan†, Weichao Shen, Siyu Zhu, Zilong Dong, Chang Xu†. “OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression”.

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo. “LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds”, International Conference on Computer Vision (ICCV). 2025.

DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration

Yan Chen, Hanlin Shang, Ce Liu, Yuxuan Chen, Hui Li, Weihao Yuan, Hao Zhu, Zilong Dong, Siyu Zhu. “DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration”, International Conference on Computer Vision (ICCV). 2025.

Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions

Chao He, Jianqiang Ren, Yuan Dong, Jianjing Xiang, Xiejie Shen, Weihao Yuan, Liefeng Bo. “Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions”.

PanoLAM: Large Avatar Model for Gaussian Full-Head Synthesis from One-shot Unposed Image

Peng Li, Yisheng He, Yingdong Hu, Yuan Dong, Weihao Yuan, Yuan Liu, Siyu Zhu, Gang Cheng, Zilong Dong, Yike Guo. “PanoLAM: Large Avatar Model for Gaussian Full-Head Synthesis from One-shot Unposed Image”.

Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos

Yingdong Hu, Yisheng He, Jinnan Chen, Weihao Yuan, Kejie Qiu, Zehong Lin, Siyu Zhu, Zilong Dong, Jun Zhang. “Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos”.

LAM: Large Avatar Model for One-shot Animatable Gaussian Head

Yisheng He, Xiaodong Gu, Xiaodan Ye, Chao Xu, Zhengyi Zhao, Yuan Dong, Weihao Yuan†, Zilong Dong, Liefeng Bo. “LAM: Large Avatar Model for One-shot Animatable Gaussian Head”, SIGGRAPH. 2025.

LHM++: An Efficient Large Human Reconstruction Model for Pose-free Images to 3D

Lingteng Qiu, Peihao Li, Heyuan Li, Qi Zuo, Xiaodong Gu, Yuan Dong, Weihao Yuan, Rui Peng, Siyu Zhu, Xiaoguang Han, Guanying Chen, Zilong Dong. “LHM++: An Efficient Large Human Reconstruction Model for Pose-free Images to 3D”.

Motions as Queries: One-Stage Multi-Person Holistic Human Motion Capture

Kenkun Liu*, Yurong Fu*, Weihao Yuan*, Jing Lin, Peihao Li, Xiaodong Gu, Lingteng Qiu, Haoqian Wang, Zilong Dong, Xiaoguang Han. “Motions as Queries: One-Stage Multi-Person Holistic Human Motion Capture”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2025.

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

Lingteng Qiu, Shenhao Zhu, Qi Zuo, Xiaodong Gu, Yuan Dong, Junfei Zhang, Chao Xu, Zhe Li, Weihao Yuan, Liefeng Bo, Guanying Chen, Zilong Dong. “AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2025.

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

Zhe Li*, Weihao Yuan*, Yisheng He, Lingteng Qiu, Shenhao Zhu, Xiaodong Gu, Weichao Shen, Yuan Dong, Zilong Dong, Laurence T. Yang. “LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning”, International Conference on Learning Representations (ICLR). 2025.

MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow

Zhe Li, Yisheng He, Lei Zhong, Weichao Shen, Qi Zuo, Lingteng Qiu, Zilong Dong, Laurence Tianruo Yang, Weihao Yuan†. “MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow”.

MVImgNet2.0: A Larger-scale Dataset of Multi-view Images

Xiaoguang Han*, Yushuang Wu*, Luyue Shi*, Haolin Liu*, Hongjie Liao, Lingteng Qiu, Weihao Yuan‡, Xiaodong Gu, Zilong Dong, Shuguang Cui. “MVImgNet2.0: A Larger-scale Dataset of Multi-view Images”, ACM Transactions on Graphics (TOG). 2024.

MVImgNet2.0: A Larger-scale Dataset of Multi-view Images

MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling

Weihao Yuan, Yisheng He, Weichao Shen, Yuan Dong, Xiaodong Gu, Zilong Dong, Liefeng Bo, Qixing Huang. “MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling”, Conference on Neural Information Processing Systems (NeurIPS). 2024.

Gaussian-Informed Continuum for Physical Property Identification and Simulation

Junhao Cai*, Yuji Yang*, Weihao Yuan†, Yisheng He, Zilong Dong, Liefeng Bo, Hui Cheng, Qifeng Chen. “Gaussian-Informed Continuum for Physical Property Identification and Simulation”, Conference on Neural Information Processing Systems (NeurIPS). 2024.

High-Fidelity 3D Textured Shapes Generation by Sparse Encoding and Adversarial Decoding

Qi Zuo, Xiaodong Gu, Yuan Dong, Zhengyi Zhao, Weihao Yuan, Lingteng Qiu, Liefeng Bo, Zilong Dong. “High-Fidelity 3D Textured Shapes Generation by Sparse Encoding and Adversarial Decoding”, European Conference on Computer Vision (ECCV). 2024.

Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition

Yisheng He, Weihao Yuan†, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang. “Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition”, European Conference on Computer Vision (ECCV). 2024.

An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes Using Pre-Trained Text-2-Image Models

Zhengyi Zhao, Chen Song, Xiaodong Gu, Yuan Dong, Qi Zuo, Weihao Yuan, Liefeng Bo, Zilong Dong, Qixing Huang. “Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition”, European Conference on Computer Vision (ECCV). 2024.

OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation

Junhao Cai*, Yisheng He*, Weihao Yuan†, Siyu Zhu, Zilong Dong, Liefeng Bo, Qifeng Chen. “OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation”, IEEE Robotics and Automation Letters (RAL). 2024.

RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D

Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi Zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, Xiaoguang Han. “RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024.

IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images

Yushuang Wu, Luyue Shi, Junhao Cai, Weihao Yuan‡, Lingteng Qiu, Zilong Dong, Liefeng Bo, Shuguang Cui, Xiaoguang Han. “IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024.

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

Yuan Dong, Qi Zuo, Xiaodong Gu, Weihao Yuan, Zhengyi Zhao, Zilong Dong, Liefeng Bo, Qixing Huang. “GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024.

VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model

Qi Zuo, Xiaodong Gu, Lingteng Qiu, Yuan Dong, Zhengyi Zhao, Weihao Yuan, Rui Peng, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang. “VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model”.

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Minglin Chen, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo. “Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation”.

DIM-SLAM: Dense RGB SLAM With Neural Implicit Maps

Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan. “Dense RGB SLAM with Neural Implicit Maps“, International Conference on Learning Representations (ICLR). 2023.

3D-Former: Monocular Scene Reconstruction with SDF 3D Transformers

Weihao Yuan, Xiaodong Gu, Heng Li, Zilong Dong, Siyu Zhu. “3D Former: Monocular Scene Reconstruction with 3D SDF Transformers“, International Conference on Learning Representations (ICLR). 2023.

DRO: Deep Recurrent Optimizer for Video to Depth

Xiaodong Gu*, Weihao Yuan*†, Zuozhuo Dai, Chengzhou Tang, Siyu Zhu, Ping Tan. “DRO: Deep Recurrent Optimizer for Video to Depth”, IEEE Robotics and Automation Letters (RAL). 2024.

Cluster Contrast for Unsupervised Person Re-Identification

Zuozhuo Dai, Guangyuan Wang, Weihao Yuan, Siyu Zhu, Ping Tan. “Cluster Contrast for Unsupervised Person Re-Identification”, Asian Conference on Computer Vision (ACCV). IEEE, 2022.

RCP: Recurrent Closest Point for Scene Flow Estimation on 3D Point Clouds

Xiaodong Gu, Chengzhou Tang, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Ping Tan. “RCP: Recurrent Closest Point for Scene Flow Estimation on 3D Point Clouds”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022.

NeWCRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

Weihao Yuan, Xiaodong Gu, Zuozhuo Dai, Siyu Zhu, Ping Tan. “NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022.

Stereo Matching by Self-supervision of Multiscopic Vision

Weihao Yuan, Yazhan Zhang, Bingkun Wu, Michael Yu Wang, Qifeng Chen. “Stereo Matching by Self-supervision of Multiscopic Vision”, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021.

Multi-Object Rearrangement with Monte Carlo Tree Search:A Case Study on Planar Nonprehensile Sorting

Haoran Song, Joshua A. Haustein, Weihao Yuan, Kaiyu Hang, Michael Yu Wang, Danica Kragic, Johannes A. Stork. “Multi-Object Rearrangement with Monte Carlo Tree Search:A Case Study on Planar Nonprehensile Sorting”, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020.

Self-supervised Object Tracking with Cycle-consistent Siamese Networks

Weihao Yuan, Michael Yu Wang, Qifeng Chen. “Self-supervised Object Tracking with Cycle-consistent Siamese Networks”, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020.

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion

Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen. “MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion”, IEEE Robotics and Automation Letters (RA-L). IEEE, 2020.

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion

Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen. “MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion”, IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.

End-to-End Nonprehensile Rearrangement with Deep Reinforcement Learning and Simulation-to-Reality Transfer

Weihao Yuan, Kaiyu Hang, Danica Kragic, Michael Yu Wang, Johannes A. Stork. “End-to-End Nonprehensile Rearrangement with Deep Reinforcement Learning and Simulation-to-Reality Transfer”, Robotics and Autonomous Systems (RAS). 2019.

Towards Learning to Detect and Predict Contact Events on Vision-based Tactile Sensors

Yazhan Zhang, Weihao Yuan, Zicheng Kan, Michael Yu Wang. “Towards Learning to Detect and Predict Contact Events on Vision-based Tactile Sensors”, Conference on Robot Learning (CoRL). IEEE, 2019.

Reinforcement Learning in Topology-based Representation for Human Body Movement with Whole Arm Manipulation

Weihao Yuan, Kaiyu Hang, Haoran Song, Danica Kragic, Michael Yu Wang, Johannes A. Stork. “Reinforcement Learning in Topology-based Representation for Human Body Movement with Whole Arm Manipulation”, IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2019.

Rearrangement with Nonprehensile Manipulation Using Deep Reinforcement Learning

Weihao Yuan, Johannes Andreas Stork, Danica Kragic, Michael Yu Wang, Kaiyu Hang. “Rearrangement with Nonprehensile Manipulation Using Deep Reinforcement Learning”, IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.