WER = Word Error Rate,就是語音辨識錯誤率。計算方式:用語音合成模型合成一段語音。把這段合成語音丟進自動語音辨識(ASR,像 Whisper、Paraformer-zh)裡「聽」出來,看能不能把講的話正確辨認出來。用辨識結果和「正確答案文字」對比,看有幾個字(或詞)錯了,然後算出錯誤比例。