Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Această lucrare Apple tocmai a expus de ce 99% din testele AI sunt încă gunoi manuale 🤯
În timp ce toată lumea promovează ChatGPT, cercetătorii au construit în liniște un sistem Agentic RAG care automatizează testarea software-ului mai bine decât oamenii.
Rezultatele sunt absurde: acuratețe de 94,8% (față de 65% cu AI de bază), creare de teste cu 85% mai rapidă și 35% economii de costuri la migrările SAP pentru întreprinderi.
Iată ce face acest lucru diferit:
Majoritatea instrumentelor de testare AI sunt doar chatbots glorificați cu căutare. Pierd contextul, uită logica de afaceri și generează teste care sună bine, dar întrerup producția.
Acest sistem combină baze de date vectoriale cu grafe de cunoștințe - căutarea semantică întâlnește maparea relațiilor. Nu doar că găsește cod similar, ci înțelege cum se conectează întregul sistem.
Arhitectura este sălbatică:
→ Orchestrare cu mai mulți agenți: agenți AI specializați pentru analiza moștenită, maparea modificărilor, testarea integrării și conformitate
→ Sistem hibrid de cunoștințe: similitudine vectorială + traversarea graficului = context care nu dispare
→ Trasabilitate completă: fiecare caz de testare se leagă automat de cerințe
Cifre reale de implementare din migrările SAP: 25.000 de cazuri de testare create, lansare mai rapidă cu 16 luni, reducere cu 92% a defectelor de producție.
Dar iată kickerul: au făcut studii de ablație. Eliminați sistemul multi-agent? -12,3% precizie. Eliminați cunoștințele hibride? -15.7%. Eliminați contextualizarea? -18.2%.
Fiecare piesă contează. Acesta nu este teatru de inginerie promptă.
Decalajul dintre "demonstrațiile AI" și AI de producție este uriaș. Google vorbește despre agenți. Startup-urile afișează capturi de ecran. Acești cercetători au implementat sisteme funcționale care au transformat fluxurile de lucru ale întreprinderii.
Evoluția lor în 4 etape dovedește acest lucru:
RAG de bază (65%) → căutare vectorială (78%) → RAG hibrid (87%) → sistem complet agentic (94,8%).
Fiecare etapă = îmbunătățire măsurabilă. Fiecare îmbunătățire = gata de producție.
Nu vorbim despre a face dezvoltatorii cu 10% mai rapizi. Vorbim despre restructurarea fundamentală a modului în care funcționează calitatea software-ului la scară enterprise.
Viitorul nu este AI care îi înlocuiește pe inginerii QA.
Agenții AI sunt cei care înțeleg logica de afaceri mai bine decât majoritatea oamenilor din echipa ta.
Lucrare: "Agentic RAG pentru testarea software-ului cu orchestrare hibridă vector-graf și multi-agent" (Apple Research)

3,37K
Doamne... Cercetătorii de la Tencent tocmai au ucis reglarea fină și învățarea prin întărire dintr-o singură lovitură 😳
Ei îl numesc GRPO (Group Relative Policy Optimization) fără instruire.
În loc să actualizeze greutățile, modelul învață literalmente din "propriile experiențe" ca o memorie în evoluție care rafinează modul în care gândește fără a atinge vreodată parametrii.
Iată ce este sălbatic:
- Fără reglaje fine. Fără gradiente.
- Folosește doar 100 de exemple.
- Depășește configurațiile RL de 10.000 USD.
- Costul total? 18 dolari.
Își introspecționează propriile lansări, extrage ceea ce a funcționat și stochează asta ca "avantaj semantic", o formă de întărire a limbajului natural.
LLM-urile învață practic "cum" să gândească, nu doar "ce" să producă.
Acest lucru ar putea face RL tradițional și reglarea fină învechite.
Intrăm în era "fără antrenament" a optimizării AI.

614,49K
Doamne... Airbnb tocmai a transformat asistența pentru clienți într-un laborator 🤯 AI care se auto-îmbunătăți
Noua lor lucrare, Agent-in-the-Loop (AITL), arată cum încorporarea feedback-ului uman direct în fluxurile de lucru de asistență live creează un volant de date care reantrenează modelul la fiecare câteva săptămâni, nu la câteva luni.
În loc de maratoane de adnotare offline, AITL colectează 4 semnale de feedback în timp real de la agenții umani:
• Ce răspuns AI au preferat
• De ce l-au ales
• Dacă informațiile preluate au fost relevante
• Ce cunoștințe lipseau
Aceste semnale reinstruiesc continuu modelele de recuperare, clasificare și generare, reducând timpul de iterație și sporind performanța:
+11,7% rechemare de recuperare
+14,8% precizie
+8,4% utilitate
+4,5% adoptarea agentului
Rezultatul? Un sistem care învață în timp ce funcționează.
Gata cu modelele statice. Gata cu ciclurile de recalificare de luni de zile.
Acesta este modul în care AI devine cu adevărat adaptabil oameni în buclă → agenți în buclă → îmbunătățire infinită.
Citiți lucrarea completă: arxiv. org/abs/2510.06674
34,66K
Limită superioară
Clasament
Favorite