Konuşma tanıma (ASR) verisi hazırlama ve değerlendirme metrikleri

Konuşma Tanıma (ASR) Verisi Hazırlama

Konuşma tanıma sistemi için verilerin hazırlanması birkaç aşamadan oluşur:
  • Veri Toplama: Gerçek hayat konuşmalarından veya belirli ses kayıtları üzerinden veri toplanır.
  • Veri Temizleme: Fonetik hatalar, arka plan gürültüleri ve gereksiz boşluklar temizlenir.
  • Etiketleme: Ses kayıtları, doğru transkripte uygun şekilde etiketlenir.
  • Veri Zenginleştirme: Farklı aksanlar, lehçeler ve konuşma tarzları eklenerek veri çeşitlendirilir.

Değerlendirme Metrikleri

ASR sistemlerini değerlendirmek için yaygın olarak kullanılan metrikler şunlardır:
  • Toplam Hata Oranı (WER): Doğru tahmin edilen kelimelerin toplam kelime sayısına oranı.
  • Ses Tanıma Başarı Oranı (SRR): Doğru tanınan seslerin oranı.
  • Hata Türleri Analizi: Yanlış tanımaların türlerini (eksik, fazladan, yanlış) değerlendirme.
  • Kelimeler Arası Zamanlama: Kelimelerin doğru zamanlaması ve akışı.
Bu metriklerin kombinasyonu, ASR sisteminin performansını kapsamlı bir şekilde değerlendirir.

Cevap yazmak için lütfen .

Konuşma tanıma (ASR) verisi hazırlama ve değerlendirme metrikleri

🐞

Hata bildir

Paylaş