Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Goede post van @balajis over de "verificatiekloof".
Je zou het kunnen zien als twee modi in de schepping. GAN-terminologie lenen:
1) generatie en
2) discriminatie.
Bijv. schilderen - je maakt een penseelstreek (1) en dan kijk je een tijdje om te zien of je het schilderij hebt verbeterd (2). Deze twee fasen worden afgewisseld in vrijwel al het creatieve werk.
Tweede punt. Discriminatie kan computationeel erg moeilijk zijn.
- Afbeeldingen zijn verreweg het gemakkelijkst. Teams voor het genereren van afbeeldingen kunnen bijvoorbeeld gigantische rasters met resultaten maken om te beslissen of de ene afbeelding beter is dan de andere. dank aan de gigantische GPU in je hersenen die is gebouwd om afbeeldingen zeer snel te verwerken.
- Tekst is veel moeilijker. Het is skimmbaar, maar je moet lezen, het is semantisch, discreet en precies, dus je moet ook redeneren (vooral in b.v. code).
- Audio is misschien nog moeilijker IMO, omdat het een tijdas forceert, zodat het niet eens skimmable is. Je bent gedwongen om seriële rekenkracht uit te geven en kunt het helemaal niet parallelliseren.
Je zou kunnen zeggen dat LLM's bij het coderen zijn ingestort (1) tot ~instant, maar heel weinig hebben gedaan om (2) aan te pakken. Een persoon moet nog steeds naar de resultaten staren en onderscheiden of ze goed zijn. Dit is mijn belangrijkste kritiek op LLM-codering in die zin dat ze terloops *veel* te veel code per query uitspugen met willekeurige complexiteit, alsof er geen fase 2 is. Zoveel code krijgen is slecht en eng. In plaats daarvan moet de LLM actief met u samenwerken om problemen op te splitsen in kleine incrementele stappen, die elk gemakkelijker te verifiëren zijn. Het moet anticiperen op het rekenwerk van (2) en dit zoveel mogelijk verminderen. Het moet er echt om geven.
Dit brengt me bij waarschijnlijk het grootste misverstand dat niet-codeerders hebben over coderen. Ze denken dat coderen gaat over het schrijven van de code (1). Dat is het niet. Het gaat om het staren naar de code (2). Alles in je werkgeheugen laden. Heen en weer ijsberen. Nadenken over alle randgevallen. Als je me op een willekeurig moment betrapt terwijl ik aan het "programmeren" ben, staar ik waarschijnlijk alleen maar naar het scherm en, als ik word onderbroken, echt boos omdat het zo rekenkundig inspannend is. Als we alleen veel sneller 1 worden, maar we verminderen niet ook 2 (wat meestal het geval is!), dan zal de algehele codeersnelheid duidelijk niet verbeteren (zie de wet van Amdahl).

4 jun 2025
AI-AANSPORING → AI-VERIFICATIE
AI-prompting is schaalbaar, omdat prompting gewoon typen is.
Maar AI-verificatie is niet schaalbaar, omdat het verifiëren van AI-output veel meer inhoudt dan alleen typen.
Soms kun je met het oog verifiëren, daarom is AI geweldig voor frontend, afbeeldingen en video. Maar voor alles wat subtiel is, moet je de code of tekst diep lezen - en dat betekent dat je het onderwerp goed genoeg moet kennen om de AI te corrigeren.
Onderzoekers zijn zich hier terdege van bewust, en daarom is er zoveel werk aan evals en hallucinaties.
Het concept van verificatie als knelpunt voor AI-gebruikers wordt echter onderbelicht Ja, u kunt formele verificatie proberen, of criticusmodellen waarbij de ene AI de andere controleert, of andere technieken. Maar om je zelfs maar bewust te zijn van het probleem als een eersteklas probleem is het halve werk.
Voor gebruikers: AI-verificatie is net zo belangrijk als AI-prompting.
449,44K
Boven
Positie
Favorieten