Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 dosahuje na AIME 2025 přesnosti 94,6 %, což naznačuje matematické uvažování blízké lidskému.
Přesto ho požádáte, aby se dotazoval na vaši databázi, a úspěšnost prudce klesne na teenagery.
Benchmarky Spider 2.0 odhalují zející mezeru ve schopnostech umělé inteligence. Spider 2.0 je komplexní srovnávač převodu textu do SQL, který testuje schopnost modelů umělé inteligence generovat přesné dotazy SQL z otázek v přirozeném jazyce napříč reálnými databázemi.
Zatímco velké jazykové modely si podmanily znalostní práci v matematice, kódování a uvažování, převod textu do SQL zůstává tvrdošíjně obtížný.
Tři benchmarky Spider 2.0 testují dotazování na databázi v reálném světě v různých prostředích. Spider 2.0-Snow používá databáze Snowflake s 547 testovacími příklady, které dosahují maximální přesnosti 59,05 %.
Spider 2.0-Lite zahrnuje BigQuery, Snowflake a SQLite s dalšími 547 příklady, které dosahují pouze 37,84 %. Spider 2.0-DBT testuje generování kódu proti DuckDB na 68 příkladech, přičemž dosahuje maxima 39,71 %.
Tento rozdíl ve výkonu není způsoben nedostatkem snahy. Od listopadu 2024 soutěžilo v těchto měřítkách 56 návrhů z 12 modelových rodin.
Claude, OpenAI, DeepSeek a další prosadili své modely proti těmto testům. Pokrok se v posledních devíti měsících vytrvale pohyboval od zhruba 2 % do zhruba 60 %.
Hádanka se prohlubuje, když vezmete v úvahu omezení SQL. SQL má omezenou slovní zásobu ve srovnání s angličtinou, která má 600 000 slov, nebo programovacími jazyky, které mají mnohem širší syntaxi a knihovny. Navíc je k dispozici spousta SQL, na kterých můžete trénovat.
Pokud něco, mělo by to být jednodušší než úlohy s otevřeným koncem, kde modely nyní vynikají.
Ani dokonalá generace SQL by však nevyřešila skutečnou obchodní výzvu. Každá společnost definuje "výnosy" jinak.
Marketing měří náklady na získání zákazníků podle výdajů na kampaň, prodej je vypočítává pomocí nákladů account executive a finance zahrnují plně vytížené výdaje na zaměstnance. Tyto sémantické rozdíly vytvářejí zmatek, který technická přesnost nedokáže vyřešit.
Výsledky studie Spider 2.0 poukazují na základní pravdu o práci s daty. Technická zdatnost syntaxe SQL je pouze vstupním bodem.
Skutečná výzva spočívá v obchodním kontextu. Pochopení toho, co data znamenají, jak různé týmy definují metriky a kdy záleží na okrajových případech. Jak jsem psal v Semantic Cultivators, most mezi nezpracovanými daty a obchodním významem vyžaduje lidský úsudek, který současná umělá inteligence nedokáže replikovat.

7,63K
Top
Hodnocení
Oblíbené