Flow-VAE 先有個「查表的動作」:每個 audio token(假設一共有 1024 種)都有一個對應的「向量」(假設是 256 維的數字組)。你可以想像「1號token」查出來是 [0.1, -0.3, 0.2, …],「2號token」查出來是 [0.5, -0.1, 0.9, …],以此類推。這些向量合起來,叫做 latent space 表徵,也就是聲音的內部壓縮描述。用 embedding 查表,就可以讓相似的 token 變成「空間上很接近」的向量