სემინარები

სემინარი თემაზე: "ენობრივ მონაცემთა მართვის თანამედროვე პროგრამული პაკეტების (FLEx-ი და Elan-ი) გამოყენების პერსპექტივები საქართველოში". ქართული ფილოლოგიის დეპარტამენტის ასისტენტ-პროფესორი მზია ხახუტაიშვილი, ქართული ფილოლოგიის დეპარტამენტის ასოცირებული პროფესორი ნანა ცეცხლაძე. სემინარი გაიმართება 28 მაისს, 13 საათზე.

XX საუკუნის 90-იანი წლებიდან განსაკუთრებით აქტუალური გახდა ნაკლებად შესწავლილ, უცნობ თუ საფრთხეში მყოფ ენათა დოკუმენტირება. „დიდი ენების“ კვლევის პრიორიტეტულობის გამო ის ენობრივი ფორმები და კატეგორიები, რომლებიც შეუსწავლელ ენებში მოიპოვება, ლინგვისტური ანალიზის საგანი არ გამხდარა და ზოგადი ლინგვისტური ცოდნაც ენის, როგორც სისტემის, შესახებ არასრული აღმოჩნდა.

წინამდებარე მოხსენებაში დასაბუთებულია საქართველოში ინტერდისციპლინური კვლევებისთვის თანამედროვე პროგრამული პაკეტების გამოყენების პერსპექტიულობა FLEx-ისა და Elan-ის მაგალითზე, როგორ განვახორციელოთ საერთაშორისო სტანდარტებით გაწყობილ ინსტრუმენტებში ქართული ენის, როგორც აგლუტინაციური ენის ინტეგრირება და ადაპტაცია, ერთი მხრივ, და რამდენად არის შესაძლებელი აღნიშნული პროგრამული ინსტრუმენტების შემდგომი დახვეწა-განვითარება ქართული ენის სტრუქტურული თავისებურებების გათვალისწინების შემდგომ.

კვლევის როგორც თეორიულ-მეთოდოლოგიური (დოკულინგვისტიკის ძირითადი პრინციპები), ისე პროგრამული ინოვაციებს (დოკუმენტირება-არქივირების თანამედროვე ჩარჩო-სტანდარტი ELAN-ისა და FLEx-ის სახით) შემოტანა-დანერგვას ემსახურებოდა მიზნად ბათუმის შოთა რუსთაველისა და ფრანკფურტის გოეთეს სახელობის უნივერსიტეტების ერთობლივი სამეცნიერო პროექტი „ლინგვოკულტუროლოგიური დიგიტალური არქივი“ (Digiarchive).

პროექტის მიზანი იყო ზეპირსიტყვიერი მასალების მოპოვება-დამუშავება ახალი მეთოდოლოგიური და ტექნოლოგიური საშუალებების გამოყენებით; დოკუმენტირების გარკვეული ჩარჩო-სტანდარტის შექმნა, პროექტის ფარგლებში მომზადდა ოთხი ტიპის რესურსი: A – არქივირებული აუდიო- და ვიდეომასალა (MP3 და AVI ფორმატი); B – არქივირებული აუდიო- და ვიდეომასალები ტრანსკრიბირებული ტექსტის თანხლებით (ELAN-ის ფორმატში); C – არქივირებული ვიდეომასალები მულტიმედიური ანოტირებით; D – დიგიტალურად დოკუმენტირებული და არქივირებული ვიდეომასალა მულტიმედიური ანოტირებით და ინგლისური თარგმანით.

ტრანსკრიბირებული მასალა დამუშავდა მონაცემთა მართვის, ტექსტის გარჩევისა და ანალიზის მულტიმედიურ ფორმატში FLEx. მასთან ერთად გამოვიყენეთ ინსტრუმენტი ELAN-ი. ამ თანამედროვე პროგრამული პაკეტების გამოყენება საქართველოში უპრეცენდენტოა

ELAN-ის უპირატესობა ისაა, რომ ვიდეო- და ტექსტური რესურსები ერთ ფაილში არის მოქცეული, ამასთან ტრანსკრიბირებული ტექსტი სინქრონიზებულია ვიდეო-გამოსახულებასა და აუდიოსიგნალთან. ვიდეომასალის გატექსტების შემდეგ ELAN-ში ტექსტი წინადადებებად სეგმენტირდება. შემდგომი ეტაპი არის მონაცემთა გადატანა FLEx-ში დასამუშავებლად.

FLEx-ი, როგორც ენობრივ მონაცემთა მართვის მეტად დახვეწილი პროგრამა, შედგება ხუთი ძირითადი ინსტრუმენტისგან. ესენია: 1. ლექსიკონი; 2. ტექსტი & სიტყვა; 3. გრამატიკა; 4. ჩანაწერები; 5. სიები. პროგრამა მოიცავს 10 კლასსა და 88 ველს ლექსიკის აღწერისთვის. მორფოლოგიური ანალიზისთვის კი არსებობს 60 კლასი და 185 ველი.

FLEx-ი უნიკალური ინსტრუმენტია ლექსიკონის შესაქმნელად. ELAN -იდან FLEx-ში ფაილის ექსპორტირების შემდეგ მონაცემთა ინტეგრირებისათვის ანოტირებული და ინტერლინიალიზებული სიტყვები ლექსიკონში (Lexicon) აისახება, რაც ELAN-ში შეუძლებელია. ცალკეული სიტყვის შესახებ გროვდება ინფორმაცია: ანთროპოლოგიური კატეგორია, ჟანრი (მონოლოგი, ბიჰევიორული ტექსტი, ნარატივი, ასევე წყაროები, მკვლევრები, ლოკალიზაცია, მთქმელები და ა.შ.). ლექსიკონი ასევე შეიცავს სიტყვათა სიას გრამატიკული ინდექსებითა და განმარტებებით, რაც შესაძლებელს ხდის ენობრივი მასალების სინქრონიულ და დიაქრონიულ ანალიზს.

FLEX-ში ამგვარად დამუშავებული ენობრივი მონაცემები კვლავ ELAN-ში იმპორტირდება. FLEx-ი ფასდაუდებელია იმ მხრივაც, რომ ინსტრუმენტში Grammar მოცემულია ამა თუ იმ მეტყველების ნაწილი განმარტებითურთ, თუმცა შესაძლებელია ველში დაემატოს აფიქსების შაბლონი (შაბლონის სახელი, აღწერა), ასევე ქვეკატეგორიები.

პროგრამა FLEx-ი სეგმენტირების, გლოსირების საშუალებით ყველაზე კარგად წარმოაჩენს ენის არსებით თავისებურებებს, დანაწევრების საშუალებებსა და მორფემათა ფუნქციებს: რა სიტყვაფორმები არსებობს და რა სახის გრამატიკული, სემანტიკური და პრაგმატიკული კატეგორიები გადმოიცემა ენაში მორფოლოგიური საშუალებებით. ვინაიდან პროგრამაში ზემოთ აღნიშნულ მორფემათა დიფერენცირებული ანალიზი არის დაფიქსირებული, სპეციალისტს საშუალება ეძლევა კონკრეტულ შემთხვევაში აირჩიოს ზუსტი კვალიფიკაცია.

პროგრამა არამარტო სალიტერატურო ენის, არამედ დიალექტური მასალების მრავალფეროვნების წარმოჩენის საშუალებასაც გვაძლევს. მონაცემთა ვარიანტებში თავს იყრის სალიტერატურო ენის თუ დიალექტური, ძველი და ახალი ფორმები, ასევე მონათესავე ენების ლექსიკური ან გრამატიკული ერთეულები. ისეთი ფორმები, როგორებიცაა მაგ., დარგა და დარგო, დაფქვეული და დაფქვევლი, ავადმყოფი და ავანტყოფი ლექსიკონში გაიმიჯნება, როგორც სალიტერატურო ფორმა და დიალექტიზმი. ხვიმირი და გოდორი კი, როგორც არქაიზმი და თანამედროვე სიტყვა. ლექსიკონში გამოჩნდება ენათა კონტაქტებიც: თოფალი (თურქ.), ზასტავო (რუს.), ლოდოსი (ბერძნ.), ჯუმადია, ბადიში (ზან.).

დამუშავებული ტექსტები განიხილება, როგორც ერთობლიობა, ანუ კორპუსი, რომელშიც მოცემულია დიალექტური ფორმა/ სალიტერატურო შესატყვისი (ფონეტიკური ან მორფოლოგიური) და სალიტერატურო ფორმა შესაძლო ვარიანტებითურთ ერთ რომელიმე, რამდენიმე ან ერთდროულად ყველა ქვესისტემაში.

ცალკეული დიალექტის მასალების სრულყოფის საფუძველზე მომდევნო ეტაპზე შესაძლებელი გახდება შედარებითი ლექსიკონების შედგენაც.

მონაცემთა ველებიდან კარგად ჩანს ის თავისებურებანი, რომლებიც აქვს ინგლისურ ენას და არ აქვს ქართულს. მაგალითად: გრამატიკული სქესი, არტიკლი, სუპინუმი და გერუნდივი და ა.შ. ასევე ქართული ენის არსებითი თავისებურებები (პოლიპერსონალიზმი, მწკრივები, თემის ნიშნები, კონტაქტი, ქცევა, ზმნისწინის დამატებითი ფუნქციები, ვნებითი გვარის სემანტიკური ნიუანსები და ბევრი სხვა.) ზუსტი, კვალიფიციური სეგმენტირება და ტერმინების სწორად არჩევა, ტერმინოლოგიური სიჭრელის მოგვარება. შორეული პერსპექტივაა გრამატიკის ავტომატურად აღწერა, საამისოდ კი დაბრკოლება მონაცემთა სიმწირეა.

მოკლედ, სხვადასხვა შინაარსისა და ჟანრის დიდი რაოდენობის მასალების ბუნებრივ სიტუაციაში ჩაწერით, ტექსტების მაქსიმალური სიზუსტით დამუშავებით შესაძლებელი გახდება აგლუტინაციური ენის თავისებურებათა წარმოჩენა, ზუსტი, კვალიფიციური ანალიზი, ცალკეული საკითხის გადახედვა, ტერმინთა დახვეწა, რითაც უზრუნველყოფილი იქნება ქართული ენის მდგრადი განვითარება. რესურსების ღიაობა საფუძვლად დაედება ფუნდამენტურ ინტერდისციპლინურ კვლევებს. ენათა და კულტურათა დოკუმენტირება და მონაცემთა მართვა მომავალი ინტერდისციპლინური კვლევების მყარი საფუძველია. ეს განსაკუთრებით აქტუალურია შეუსწავლელ ან საფრთხის ქვეშ მყოფ ენათათვის. FLEx-ის და Elan-ის უპრეცენდენტო შესაძლებლობებია: ენობრივი მასალების მრავალფეროვნების წარმოჩენა, მეცნიერული ჰიპოთეზების შემოწმება, ლექსიკონის შედგენა, ბრუნებისა და უღლების პარადიგმების ვარიანტულობის ზუსტი აღწერა, გრამატიკის ჩარჩოს შექმნა, საბოლოოდ კი მონაცემთა ავტომატური ანალიზი.

  დანართი

უკან

პოპულარული სიახლეები

საკონტაქტო ინფორმაცია

საქართველო, ბათუმი, 6010
რუსთაველის/ნინოშვილის ქ. 32/35
ტელ: +995(422) 27–17–80
ფაქსი: +995(422) 27–17–87
ელ. ფოსტა: info@bsu.edu.ge
     

სიახლის გამოწერა