2. token 轉成潛在特徵(latent vector)

  • Flow-VAE 先有個「查表的動作」:
    • 每個 audio token(假設一共有 1024 種)都有一個對應的「向量」(假設是 256 維的數字組)。
    • 你可以想像「1號token」查出來是 [0.1, -0.3, 0.2, …],
      • 「2號token」查出來是 [0.5, -0.1, 0.9, …],以此類推。
  • 這些向量合起來,叫做 latent space 表徵,也就是聲音的內部壓縮描述。
用 embedding 查表,就可以讓相似的 token 變成「空間上很接近」的向量