sembra familiare!
CreativeMath
CreativeMath18 ott, 04:59
Matematica pura Q rilevante per LLM: Token non correlati (come "cane" e "sole") dovrebbero corrispondere approssimativamente a vettori ortogonali nello spazio di embedding. Quindi, in ℝ^k, qual è il numero massimo di vettori ortogonali a coppie? E se sono solo "quasi" ortogonali, quindi ∣vi⋅vj∣<ε, ∀ i≠j?
tl;dr,
@boops_u (anche se ovviamente è logaritmico rispetto al numero di punti) quindi se non esplode nella dimensione di base, allora hai assolutamente ragione e questo è un corollario !
@boops_u quale è la probabilità/l'errore nella dimensione dello spazio base? In JL di solito assumiamo che questo sia costante poiché il numero di punti è grande (e chiediamo come varia lo spazio di proiezione)
@boops_u (è solo un po' sospetto, penso, poiché questa disuguaglianza dipende molto dalle dimensioni del campo di base, perché è questo che ci porta alla concentrazione in primo luogo... quindi non sono sicuro al 100%!)
@boops_u (per questo, la mia "intuizione" è che una buona base si annullerà ~ a zero in media, quindi la sua norma dovrebbe essere altrettanto vicina a zero)
62,63K