ERROR
Запропоновано нову архітектуру для обробки відеоданих, Vision Byte Latent Transformer (V-BLT), яка адаптує принципи успішних байт-рівневих мовних моделей до зорової модальності. На відміну від стандартних підходів, що використовують пакування фіксованого розміру (patching), які є обчислювально неефективними через рівномірний розподіл ресурсів незалежно від складності візуального контенту, V-BLT працює безпосередньо з потоком байтів відео. Це дозволяє уникнути втрати інформації, пов'язаної з попередньою токенізацією та підвищити гнучкість обробки. Ключовими внесками роботи є розробка концепції просторово-часових латентних патчів, впровадження N-вимірних ротаційних позиційних вкладень для збереження когерентності даних у розгорнутому потоці байтів та застосування багаторівневої трансформерної архітектури для ієрархічної обробки даних.
Додати до списку
Є складовою частиною документа Вісник Вінницького політехнічного інституту [Текст] : науковий журнал / МОНМСУ, ВНТУ. – 2025. – № 5. – 199 с.
Теми документа