Опис документа

Електронний каталог науково-технічної бібліотеки
Вінницького національного технічного університету

Формуляр

Опис документа

    Кулик, Л. Р.
    Масштабування прогнозування відео за допомогою просторово-часових патчів [Текст] / Л. Р. Кулик, О. Б. Мокін
    // Вісник Вінницького політехнічного інституту. – 2025. – № 5. – С. 129-139. – DOI: https://doi.org/10.31649/1997-9266-2025-182-5-129-139.

Запропоновано нову архітектуру для обробки відеоданих, Vision Byte Latent Transformer (V-BLT), яка адаптує принципи успішних байт-рівневих мовних моделей до зорової модальності. На відміну від стандартних підходів, що використовують пакування фіксованого розміру (patching), які є обчислювально неефективними через рівномірний розподіл ресурсів незалежно від складності візуального контенту, V-BLT працює безпосередньо з потоком байтів відео. Це дозволяє уникнути втрати інформації, пов'язаної з попередньою токенізацією та підвищити гнучкість обробки. Ключовими внесками роботи є розробка концепції просторово-часових латентних патчів, впровадження N-вимірних ротаційних позиційних вкладень для збереження когерентності даних у розгорнутому потоці байтів та застосування багаторівневої трансформерної архітектури для ієрархічної обробки даних.

УДК 004.054:[004.032.26+004.85]

Є складовою частиною документа Вісник Вінницького політехнічного інституту [Текст] : науковий журнал / МОНМСУ, ВНТУ. – 2025. – № 5. – 199 с.

Теми документа

Інформаційно-пошукова система
'УФД/Бібліотека'

Електронний каталог науково-технічної бібліотекиВінницького національного технічного університету

Електронний каталог науково-технічної бібліотеки
Вінницького національного технічного університету