ser bekant ut!
CreativeMath
CreativeMath18 okt. 04:59
Ren matematik Q relevant för LLM: Orelaterade token (som "hund" och "sol") bör ungefär motsvara ortogonala vektorer i inbäddningsrymden. Så, i R^k, vad är max nr. av parvisa ortogonala vektorer? Vad sägs om de bara är "nästan" ortogonala, så ∣vi⋅vj∣<ε, ∀ i≠j?
Tl; Dr
@boops_u (även om det såklart är logaritmiskt på antalet poäng) Så om det inte sprängs i basdimensionen, så har du helt rätt och detta är en naturlig följd!
@boops_u som vad är sannolikheten/felet i dimensionen av basutrymmet? i JL antar vi vanligtvis att detta är konstant eftersom antalet punkter är stort (och frågar hur projektionsrummet varierar)
@boops_u (det är bara lite suspekt tycker jag eftersom denna olikhet i hög grad beror på basfältets dimensioner, eftersom det är detta som får oss att koncentrera oss i första hand... Så jag är inte 100% säker !)
@boops_u (för den här är min "intuition" att en bra grund kommer ~ att avbryta till noll på genomsnitt, så dess norm bör också vara nära noll)
45,42K