1. AR Transformer 產生的 audio token 是什麼?

  • 就像「語音的拼圖編號」,這些 token 本身不是聲音波形,而是模型自己定義的「聲音碎片的代表」。
  • 每個 audio token 可能對應「某種小單位的聲音形狀」——這不是字,也不是梅爾頻譜圖,而是更像一個數位抽象代碼