|
Автоматичне видобування знань з екологічних звітів з прив'язкою до часу та до просторових координат масивів вод [Електронний ресурс] / К. О. Бондалєтов, В. Б. Мокін, І. М. Штельмах, О. В. Слободянюк // Вісник Вінницького політехнічного інституту. – 2025. – № 3. – С. 101-110. – DOI: https://doi.org/10.31649/1997-9266-2025-180-3-101-110.
Видобування знань здійснюється з урахуванням прив'язки отриманих фактів до просторових координат конкретних масивів вод й інтервалів часу. Актуальність роботи зумовлена значною доступністю таких екологічних даних у новинах, вебсайтах установ та соціальних медіа, необхідністю їхнього швидкого та точного оброблення. Запропонований метод поєднує виявлення фактів про стан вод чи про їх забруднення, розпізнавання географічних назв з тексту та заголовків, а також визначення часових ознак за допомогою аналізу ієрархічної структури документа. Метод оптимізує контекстно-семантичний критерій, який максимізує повноту та ймовірність виявлення усіх наявних зв'язків між ключовими словосполученнями у тексті фактів, періодами часу і масивами вод та, одночасно, мінімізує кількість хибнопозитивних зв'язків між ними, за рахунок формалізації зв'язків у вигляді триплетів «subject–predicate–object» (SPO) та використання міри Жаккара для пошуку ступеня подібності між списками ключових словосполучень, що характеризують ці факти і масиви вод. Видобування знань основано на виявленні і використанні ієрархічної структури документа, використанні великих мовних моделей, на актуалізації бази знань інформацією з використанням методу генерації з доповненням через пошук (RAG) для регулярного оновлення знань та їхньої прив'язки до періоду часу і просторових координат. |