Плиний Стари, Naturalis Historia: Визуализация на честотата на лемите
да се разработи алгоритъм за извличане на информация за Тракия в текстове на класическата римска литература, като се фокусира върху „Естествена история“ на Плиний Стари. Алгоритъмът, който може да се адаптира за всяко произведение на класически латински език, преобразува данните от формата TESS в CSV набор от данни, което дава възможност за търсене по лема и разпознаване на контекста на съответната глава от произведението с помощта на NLP моделите LatinCy от библиотеката SpaCy. Добавената функция за контекстуализация показва съседните на търсената лема думи. Алгоритъмът е оптимизиран за търсене по няколко леми, поддържа функция за токенизация, контекстуализация и търсене на книги/глави от произведението. Наборът от данни, създаден с помощта на алгоритъма, включва 73 записа, свързани с етноними,
топоними места, реки и планини в Тракия, което дава възможност за културни, исторически и географски наблюдения. Инструмент за визуализация, разработен с програмната библиотеката Streamlit, осигурява лесен достъп до данните, като чрез интерактивни графики позволява на потребителите да изследват честотата на лемите, споменаванията на глави и контекста. Изследването предоставя метод за намиране на споменавания на Тракия в труда на Плиний, като в бъдеще се планира да се подобри функцията за разпознаване на записите и да се създаде цялостен първичен набор от данни за класическата римска литература.
Визуализацията е достъпна на следния линк:
https://huggingface.co/spaces/bestroi/PliniusNatHist
Наборът от данни в csv формат е достъпен в FigShare:
https://doi.org/10.6084/m9.figshare.27044578.v1
Автор: Кристиян Симеонов,
Изследовател (R1),
Катедра Калсическа филология,
Софийски университет „Св. Климент Охридски“