Türk Konuşurlar Tarafından Söylenen NATO Fonetik Alfabesine Ait Gırtlak Mikrofonu Sinyallerinden Otomatik Konuşma Tanıma: Push-to-Talk Koşulları Altında Klasik ve Derin Öğrenme Tekniklerinin Değerlendirilmesi

Yazarlar

Anahtar Kelimeler:

Otomatik Konuşma Tanıma- Makine Öğrenmesi- NATO fonetik alfabesi- Push-to-Talk- Gırtlak mikrofonu

Özet

Bu çalışma, yalnızca gırtlak mikrofonları kullanılarak kaydedilen ses sinyallerine uygulanan çeşitli Otomatik Konuşma Tanıma (ASR) tekniklerinin performansını değerlendirmektedir. Amaç, geleneksel hava mikrofonlarının çevresel gürültü nedeniyle sınırlı kaldığı Push-to-Talk (PTT) operasyonel koşullarında bu tekniklerin uygulanabilirliğini araştırmaktır. On ana dili Türkçe olan konuşmacının NATO fonetik alfabesini telaffuz ettiği bir veri kümesi oluşturulmuştur. Sinyaller Silero VAD kullanılarak bölümlendirilmiş, 16 kHz’e yeniden örneklenmiş ve modellerin gürültü ve varyasyonlara karşı dayanıklılığını artırmak amacıyla veri artırma teknikleri uygulanmıştır. Özellik çıkarımı için iki farklı yaklaşım kullanılmıştır: MFCC’ler ve PCA ile boyutu azaltılmış Wav2Vec2 gömlemeleri. Daha sonra beş denetimli sınıflandırıcı eğitilmiş ve karşılaştırılmıştır: SVM, Random Forest, KNN, MLP ve LightGBM. Değerlendirme metrikleri arasında genel doğruluk ve Kelime Hata Oranı (WER) yer almaktadır. Sonuçlar, gırtlak sinyalleriyle ASR sistemlerinin teknik olarak uygulanabilir olduğunu göstermekte; LightGBM ile MFCC kombinasyonunun en sağlam yapı olduğunu (%%86,38 doğruluk, 0.000 WER) ve MFCC ile Random Forest kullanımının da önemli bir potansiyel sunduğunu (%%84,62 doğruluk, 0.000 WER) ortaya koymaktadır. Bu çalışma, gürültülü ortamlarda kullanılabilecek, dayanıklı ve düşük maliyetli ASR sistemlerinin geliştirilmesi için deneysel bir temel oluşturmaktadır; bu bağlamda, gırtlak mikrofonları önemli bir alternatif sunmaktadır.

İndir

Yayınlanmış

2025-11-13