Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Měření efektivity myšlení v modelech uvažování: Chybějící měřítko
Měřili jsme využití tokenů napříč modely uvažování: otevřené modely produkují 1,5–4x více tokenů než uzavřené modely na identických úkolech, ale s obrovskou variabilitou v závislosti na typu úkolu (až 10x u jednoduchých otázek).
Tyto skryté náklady často negují cenové výhody za token. Efektivita tokenů by se měla stát primárním cílem vedle srovnávacích testů přesnosti, zejména s ohledem na případy použití, které nejsou opodstatněné.
Přečtěte si podrobný přehled efektivity uvažování v prostředí otevřených a uzavřených modelů v našem nejnovějším příspěvku na blogu ve spolupráci s naším výzkumným pracovníkem Timem.
Podívejte se na více jejich prací zde:

2,32K
Nous Research repostoval/a
Prostředí Arena-Hard eval je nyní sloučeno s Atropos - užijte si škálovatelné, flexibilní a moderní vyhodnocení s benchmarkem @lmsysorg arena-hard, který je velmi skvělý při určování široké škály schopností v modelech.
Připraveno být prostředím RL, pokud si přinesete vlastní vlakovou soupravu i :)
Více se dozvíte na

6,84K
Náš výzkumný pracovník v rezidenčním @yaboilyrical bude 3. srpna diskutovat o své práci na řízení SMC na UC Berkeley.
Podívejte se na blog o této práci zde:
Podrobnosti níže!

nightwing25. 7. 2025
S potěšením oznamuji, že budu řečníkem na @BerkeleyRDI DeAI Summitu, kde představím svůj výzkum s @NousResearch o dekódování omezeného jazyka!
Pokud se účastníte summitu, nebo se chcete přijít podívat na mou přednášku, kontaktujte mě!

10,62K
Atropos v0.3 je nyní venku!
Náš framework RL Environments prošel od verze 0.2 mnoha vylepšeními - některé přednosti:
- Atropos může být nyní použit jako rámec pro benchmarking a hodnocení společností @rogershijin, s naším prvním externím benchmarkem, Reward-Bench 2!
- Přidán Reasoning Gym, repo posilovny pro externí prostředí portované do atropos s více než 100 úlohami uvažování od @neurosp1ke a přátel
- @max_paperclips integrovaný bootcamp uvažování @intern_lm, který přidává 1000+ nových úkolů pro RL
- @dmayhem93 hlavní inženýr Atroposu přidal desítky oprav chyb a další vylepšení spolehlivosti a kompatibility, lepší podporu pro multi-environment a CI/CD
- Mnoho prostředí hackathonu Atropos bylo sloučeno do /environments/community - jejich seznam by zabral většinu místa na obrazovce, ale některé zajímavosti:
VR-CLI od @JakeABoggs, Filozofie RLAIF, Adaptivní učitelé LLM, WebVoyager, design proteinů od @hallerite, modelové směrovací prostředí od @gabinfay, více na štíhlé dokazování, catbot aréna, pokémon showdown, poker, užitečné doktory, sanskrtská poezie od @khoomeik a mnoho dalšího!
- Mezi další pozoruhodná oficiálně podporovaná nová prostředí patří:
Formát odpovědi podle prostředí
Prostředí Pydantic do JSON portované z @MatternJustus práce
Následující instrukce převzaté z práce @natolambert a @allen_ai
Počítání dopisů
- 47 zbrusu nových přispěvatelů!
Podívejte se na kompletní changelog zde:

Teknium (e/λ)18. 7. 2025
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements!
Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments.
We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework.
So our first port from outside our existing environments was @natolambert's Reward-Bench!
Note: it only supports generative reward models (regular LLM Judges) at the moment.
Check out the PR here:

25,09K
Nous Research repostoval/a
Byla zábava spolupracovat s týmem @huggingface na tom, aby se tato funkce stala realitou! Díky za veškerou vaši práci a kreativitu @pcuenq @reach_vb @julien_c @ariG23498 !
Také díky @NousResearch @Teknium1 @Euclaise_ za to, že jste si jako první osvojili vlastní modely notebooků a pracujete na tom s námi!
31,45K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější