ASTPrompter: Preference-Aligned Automated Language Model Red-Teaming to Generate Low-Perplexity Unsafe Prompts

Published in EMNLP, 2025

Recommended citation: Amelia Hardy*, Houjun Liu*, Allie Griffith, Bernard Lange, Duncan Eddy, Mykel J Kochenderfer
Download Paper