Они предсказывают следующий токен на основе всех предыдущих. Авторегрессионная генерация речи работает в целом похожим образом, с той разницей, что токены здесь представляют собой фрагменты аудио, а не слова или символы. И хотя эффективный способ синтеза речи из текста, у такого подхода есть и своя «узкая горловина» в обработке, как поясняют исследователи Apple: Однако для речевых LLM, генерирующих акустические токены, требование точного совпадения токенов оказывается излишне жёстким: многие дискретные токены являются акустически или семантически взаимозаменяемыми, что снижает процент принятия решений и ограничивает рост скорости. Другими словами, авторегрессионные речевые модели могут быть слишком строгими — они часто отвергают прогнозы, которые были бы вполне допустимы, просто потому, что те не совпадают в точности с ожидаемым моделью токеном. Это, в свою очередь, замедляет весь процесс. В двух словах, решение Apple основано на предпосылке, что множество различных токенов могут производить практически идентичные звуки. Исходя из этого, Apple группирует речевые токены, которые звучат похоже, создавая более гибкий этап верификации. Иначе говоря, вместо того чтобы рассматривать каждый возможный звук, как абсолютно уникальный, подход Apple позволяет модели принимать токен, принадлежащий к той же общей группе «акустического сходства».