Research

Publications

Publications from the group, spanning foundation-model pretraining, retrieval, and applied language modeling. Sorted reverse-chronologically.

Year:

2025

10 entries

2025

Craw4LLM: Efficient Web Crawling for LLM Pretraining

Shi Yu , Zhiyuan Liu , Chenyan Xiong

ACL 2025 (Findings) source ↗

2025

Aligning Web Query Generation with Ranking Objectives via Direct Preference Optimization

João Coelho , Bruno Martins , João Magalhães , Chenyan Xiong

Association for Computing Machinery, Inc. source ↗

2025

Intercept Cancer: Cancer Pre-Screening with Large Scale Healthcare Foundation Models

Liwen Sun , Hao-Ren Yao , Gary Gao , Ophir Frieder , Chenyan Xiong

arXiv preprint source ↗

2025

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

Hao Kang* , Zichun Yu* , Chenyan Xiong

arXiv source ↗

2025

Fact-Aware Multimodal Retrieval Augmentation for Accurate Medical Radiology Report Generation

Liwen Sun , James Zhao , Megan Han , Chenyan Xiong

Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL) source ↗

2025

On the Feasibility of In-Context Probing for Data Attribution

Cathy Jiao , Weizhen Gao , Aditi Raghunathan , Chenyan Xiong

Findings of the Association for Computational Linguistics (NAACL 2025) source ↗

2025

Group-Level Data Selection for Efficient Pretraining

Zichun Yu , Fei Peng , Jie Lei , Arnold Overwijk , Wen-tau Yih , Chenyan Xiong

arXiv source ↗

2025

Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Xiaochuan Li , Zichun Yu , Chenyan Xiong

ICLR 2025 source ↗

2025

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

Cathy Jiao , Yijun Pan , Emily Xiao , Daisy Sheng , Niket Jain , Hanzhang Zhao , Ishita Dasgupta , Jiaqi W. Ma , Chenyan Xiong

arXiv source ↗

2025

Fairshare Data Pricing via Data Valuation for Large Language Models

Luyang Zhang , Cathy Jiao , Beibei Li , Chenyan Xiong

arXiv source ↗

2024

3 entries

2024

Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

João Coelho , Bruno Martins , Joao Magalhaes , Jamie Callan , Chenyan Xiong

Association for Computational Linguistics source ↗

2024

ED-Copilot: Reduce Emergency Department Wait Time with Language Model Diagnostic Assistance

Liwen Sun , Abhineet Agarwal , Aaron Kornblith , Bin Yu , Chenyan Xiong

International Conference on Machine Learning (ICML) source ↗

2024

MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models

Zichun Yu , Spandan Das , Chenyan Xiong

Neural Information Processing Systems (NeurIPS) source ↗