Jay Alammar's Blog
Образовательный блог
Технический блог, посвященный визуализации и объяснению концепций машинного обучения. Фокус на трансформерах, механизмах внимания и нейронных сетях с интерактивными примерами.
ИИ и нейросетиКак работает KV cache в трансформерах: второй токен и переиспользование кэша
Понимание работы KV cache для второго токена во втором слое трансформеров. Почему возможно переиспользование кэша при изменении векторов полносвязными слоями и влияние маскирования.
4 ответа• 1 просмотр