|
Козинець, Н. В. Вплив комбінованих векторних представлень на точність пошуку нечітких дублікатів [Електронний ресурс] / Н. В. Козинець, Т. М. Заболотня // Наукові праці Вінницького національного технічного університету. – 2025. – № 1. – С. 1-10. – DOI: https://doi.org/10.31649/2307-5376-2025-1-46-55.
Запропоновано новий підхід до виявлення нечітких у текстових даних, що базується на інтеграції класичних та сучасних методів векторизації. Зокрема, традиційне TF-IDF-векторизування поєднано з контекстуальними ембедингами (BERT), які враховують не лише окремі слова, а й їхній контекст у межах усього документа. Окрему увагу приділено врахуванню синонімів та антонімів у процесі порівняння текстових фрагментів, що дає змогу не лише ідентифікувати прямі збіги, а й аналізувати схожість на глибшому семантичному рівні. Експериментальні результати підтвердили переваги запропонованого рішення порівняно з базовим методом косинусної схожості, оскільки воно забезпечує більшу точність та повноту, що є критично важливим для задач автоматичної обробки текстових даних. |