KLJUČNA OBILJEŽJA OTVORENIH SKUPOVA PODATAKA U ANALIZI SENTIMENTA OBJAVA NA TWITTERU
Sažetak
usavršavanje modela analize sentimenta, no
njihovu praktičnu iskoristivost često otežava
nedostatak standardizacije i sveobuhvatne
dokumentacije. Ovaj rad pruža kritički pregled
otvorenih skupova podataka za analizu sentimenta
objava na Twitteru, analizirajući 48 skupova
podataka za 30 različitih jezika. Analizirani
su ključni elementi, uključujući konvencije
o imenovanju, sheme označavanja, metode
distribucije podataka i uključivanje bitnih
metapodataka poput ID-ova tweetova. Rezultati
pokazuju značajne nedosljednosti koje stvaraju
izazove za reproducibilnost i komparativnu
evaluaciju modela. Identificirana je kritična
potreba za standardnim praksama u stvaranju i
diseminaciji podatakovnih skupova. Temeljem
ove analize ponuđene su konkretne preporuke za
unaprjeđenje znanstvene vrijednosti, mogućnosti
otkrivanja i dugoročne iskoristivosti otvorenih
podatkovnih skupova za znanstvenu zajednicu.