什麼是 WER(Word Error Rate)?

WER = Word Error Rate,就是語音辨識錯誤率
計算方式:
  1. 用語音合成模型合成一段語音。
  1. 把這段合成語音丟進自動語音辨識(ASR,像 Whisper、Paraformer-zh)裡「聽」出來,看能不能把講的話正確辨認出來。
  1. 用辨識結果和「正確答案文字」對比,看有幾個字(或詞)錯了,然後算出錯誤比例。