METODA AUTOMATSKE ANALIZE BRZINE GOVORA

  • Aleksandar Stojanović Tehničko veleučilište u Zagrebu
##plugins.pubIds.doi.readerDisplayName##: https://doi.org/10.19279/TVZ.PD.2021-9-2-01
Ključne riječi: prepoznavanje govora, poravnavanje, tempo, neuronska mreža.

Sažetak

U ovom radu opisana je metoda analize brzine
govora ili tempa na osnovu uzoraka govora
dobivenih s televizijskih kanala koji sadrže tekst
izgovorenog u obliku titlova. Za prepoznavanje
govora korištena je nepovratna neuronska mreža
(engl. feed-forward neural network) trenirana
s oko 160 sekundi govora. Da bi se odredile
granice pojedinačnih riječi napravljena je
komponenta za poravnavanje govora s tekstom
koja pronalazi prihvatljivo podudaranje slova
teksta s fonemima koje je klasificirala neuronska
mreža. Komponenta za poravnavanje uzima u
obzir kategorije fonema za koje neuronska mreža
ima veću preciznost klasifikacije. Preliminarni
rezultati pokazuju prosječne promašaje
poravnavanja od jednog do tri fonema, zavisno
od govornika, sadržaja izgovorenog i kvalitete
snimke.

Objavljeno
2021-09-14
Rubrika
Članci