Електронний каталог науково-технічної бібліотеки
Вінницького національного технічного університету

ПРАВИЛА КОРИСТУВАННЯ ЕК
          Кулик, Л. Р.
    Масштабування прогнозування відео за допомогою просторово-часових патчів [Текст] / Л. Р. Кулик, О. Б. Мокін
    // Вісник Вінницького політехнічного інституту. – 2025. – № 5. – С. 129-139. – DOI: https://doi.org/10.31649/1997-9266-2025-182-5-129-139.

   Запропоновано нову архітектуру для обробки відеоданих, Vision Byte Latent Transformer (V-BLT), яка адаптує принципи успішних байт-рівневих мовних моделей до зорової модальності. На відміну від стандартних підходів, що використовують пакування фіксованого розміру (patching), які є обчислювально неефективними через рівномірний розподіл ресурсів незалежно від складності візуального контенту, V-BLT працює безпосередньо з потоком байтів відео. Це дозволяє уникнути втрати інформації, пов'язаної з попередньою токенізацією та підвищити гнучкість обробки. Ключовими внесками роботи є розробка концепції просторово-часових латентних патчів, впровадження N-вимірних ротаційних позиційних вкладень для збереження когерентності даних у розгорнутому потоці байтів та застосування багаторівневої трансформерної архітектури для ієрархічної обробки даних.

  УДК 004.054:[004.032.26+004.85]


            


Є складовою частиною документа Вісник Вінницького політехнічного інституту [Текст] : науковий журнал / МОНМСУ, ВНТУ. – 2025. – № 5. – 199 с.



Теми документа






Український Фондовий Дім Інформаційно-пошукова система
'УФД/Бібліотека'