Publications

I am taking this idea from Ryan Cotterell's website, I will be updating the arxiv version of my publications including new ideas, perspectives and solving possible writing mistakes.

CMU Sinbad's Submission for the DSTC7 AVSD Challenge

Ramon Sanabria, Shruti Palaskar, and Florian Metze

AAAI 2019. Honolulu, USA.

Multimodal Grounding For Sequence-To-Sequence ASR

Ozan Caglayan, Ramon Sanabria, Shruti Palaskar, Loïc Barrault, and Florian Metze

ICASSP 2019. Brighton, UK. [Paper]

How2: A Large-scale Dataset for Multimodal Language Understanding

Ramon Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia, and Florian Metze

NeurIPS 2018 Workshop. Montreal, Canada. [Paper]

Hierarchical Multi Task Learning With CTC

Ramon Sanabria and Florian Metze

SLT 2018. Athens, Greece. [Paper]

Subword and Crossword Units for CTC Acoustic Models

Thomas Zenkel, Ramon Sanabria, Florian Metze and Alex Waibel

Interspeech 2018. Hyderabad, India. [Paper]

End-to-End Multimodal Speech Recognition

Shruti Palaskar, Ramon Sanabria and Florian Metze

ICASSP 2018. Calgary, Alberta, Canada. [Paper]

Sequence-based Multi-lingual Low Resource Speech Recognition

Siddharth Dalmia, Ramon Sanabria, Florian Metze and Alan W. Black

ICASSP 2018. Calgary, Alberta, Canada. [Paper]

Comparison of Decoding Strategies for CTC Acoustic Models

Thomas Zenkel, Ramon Sanabria, Florian Metze, Jan Niehues, Matthias Sperber, Sebastian Stüker and Alex Waibel

Interspeech 2017. Stockholm, Sweden. [Paper]