Biography

I am now a PH.D student in MMLab of HKU, supervised by Prof. Ping Luo. During my master period, I studied in IIG group in Tsinghua University, supervised by Prof. Yujiu Yang. I received my bachelor degree in Department of Automation from Tsinghua University in 2021. My research interests lie in Multi-Modal Learning, including Vision Language Pre-training, Large Multimodal Model and Video Generation. Recently, I have some works on multimodal discrete diffusion model and 3D spatial reasoning model.

Selected Papers

From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
- Yatai Ji, Teng Wang, Yuying Ge, Zhiheng Liu, Sidi Yang, Ying Shan, Ping Luo.
- Arxiv [pdf] [code] [webpage]
Global and Local Semantic Completion Learning for Vision-Language Pre-training
- RongCheng Tu^*, Yatai Ji^*, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, Wei Liu.
- TPAMI [pdf]
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
- Yatai Ji^*, Jiacheng Zhang^*, Jie Wu, Shilong Zhang, Shoufa Chen, Chongjian Ge, Peize Sun, Weifeng Chen, Wenqi Shao, Xuefeng Xiao, Weilin Huang, Ping Luo.
- ICCV2025 [pdf] [code]
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model
- Yatai Ji, Shilong Zhang, Jie Wu, Peize Sun, Weifeng Chen, Xuefeng Xiao, Sidi Yang, Yujiu Yang, Ping Luo.
- ICLR2025 [pdf] [code]
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning.
- Weifeng Chen^*, Yatai Ji^*, Jie Wu, Hefeng Wu, Pan Xie, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin.
- Arxiv [pdf] [code]
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning
- Yatai Ji^*, Rongcheng Tu^*, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, Wei Liu.
- CVPR2023 (CCF A, research paper) [pdf] [code]
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
- Yatai Ji^*, Junjie Wang^*, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang.
- CVPR2023 (CCF A, research paper) [pdf] [code]
MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering
- Junjie Wang ^*, Yatai Ji^*, Jiaqi Sun, Yujiu Yang, Tetsuya Sakai.
- EMNLP2021 (CCF B, research paper) [pdf] [code]

Awards

2023.7, Tencent Rhino-Bird Research Scholarship
2024.6, Outstanding Master’s Thesis Award of Tsinghua University
2024.9, Shenzhen Universiade International Scholarship

Internship

2022~2023, AMAI, Department of Data Platform, Tencent
2023~2024, AI Platform, Intelligence Creation Department, ByteDance
2025, Nvidia Research, Nvidia
2025, ARC Lab, Tencent
2026, Kling, KuaiShou

Yatai Ji

Biography

Selected Papers

Awards

Internship