A

Ashish Vaswani

Исследователь в области машинного обучения

Один из авторов оригинальной статьи "Attention Is All You Need", заложившей основы архитектуры трансформеров.

ИИ и нейросетиКак работает KV cache в трансформерах: второй токен и переиспользование кэша

Понимание работы KV cache для второго токена во втором слое трансформеров. Почему возможно переиспользование кэша при изменении векторов полносвязными слоями и влияние маскирования.

4 ответа 1 просмотр