Ashish Vaswani

Исследователь в области машинного обучения

Один из авторов оригинальной статьи "Attention Is All You Need", заложившей основы архитектуры трансформеров.

https://arxiv.org/search/cs?query=Vaswani,+A&searchtype=author

ИИ и нейросети Как работает KV cache в трансформерах: второй токен и переиспользование кэша

Понимание работы KV cache для второго токена во втором слое трансформеров. Почему возможно переиспользование кэша при изменении векторов полносвязными слоями и влияние маскирования.

#ai
#attention
#cache
#decoder
#machine-learning
#neural-networks
#transformers

4 ответа• 2 просмотра

11.04.2026, 18:26