kommt mir bekannt vor !
CreativeMath
CreativeMath18. Okt., 04:59
Reine Mathematik Q relevant für LLMs: Unabhängige Tokens (wie "Hund" und "Sonne") sollten grob orthogonalen Vektoren im Einbettungsraum entsprechen. Also, in ℝ^k, was ist die maximale Anzahl an paarweise orthogonalen Vektoren? Was ist, wenn sie nur "nahezu" orthogonal sind, also ∣vi⋅vj∣<ε, ∀ i≠j?
tl;dr,
@boops_u (obwohl es natürlich logarithmisch in der Anzahl der Punkte ist) wenn es also in der Basisdimension nicht explodiert, dann hast du völlig recht und das ist ein Korollar!
@boops_u wie hoch ist die Wahrscheinlichkeit/der Fehler in der Dimension des Basisraums? In JL nehmen wir normalerweise an, dass dies konstant ist, da die Anzahl der Punkte groß ist (und fragen, wie sich der Projektionsraum verändert).
@boops_u (ich finde es ein wenig verdächtig, da diese Ungleichheit sehr stark von den Dimensionen des Basisfeldes abhängt, denn das ist es, was uns überhaupt Konzentration verschafft… also bin ich mir nicht 100% sicher !)
@boops_u (für dieses hier habe ich das „Intuition“, dass eine gute Basis im Durchschnitt ~ auf null canceln wird, sodass ihre Norm ebenfalls nahe null sein sollte)
45,41K