Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Logisches Denken @OpenAI erforschen | Mitentwickelt von übermenschlichen Poker-KIs von Libratus/Pluribus, CICERO Diplomacy AI und OpenAI o3 / o1 / 🍓 Reasoning-Modellen
Ich schätze die Ehrlichkeit von @Anthropic in ihrem neuesten Systembericht, aber der Inhalt gibt mir kein Vertrauen, dass das Unternehmen verantwortungsbewusst mit der Bereitstellung fortschrittlicher KI-Modelle umgehen wird:
-Sie haben sich hauptsächlich auf eine interne Umfrage verlassen, um zu bestimmen, ob Opus 4.6 ihre autonome KI-F&E-4-Schwelle überschreitet (und somit stärkere Sicherheitsvorkehrungen für die Veröffentlichung unter ihrer Richtlinie für verantwortungsvolles Skalieren erforderlich wären). Dies war nicht einmal eine externe Umfrage eines unparteiischen Dritten, sondern vielmehr eine Umfrage unter Anthropic-Mitarbeitern.
-W als 5/16 der internen Umfrageteilnehmer zunächst eine Einschätzung abgaben, die darauf hindeutete, dass stärkere Sicherheitsvorkehrungen für die Modellveröffentlichung erforderlich sein könnten, hat Anthropic diese Mitarbeiter gezielt kontaktiert und sie gebeten, ihre Ansichten "zu klären". Sie erwähnen keine ähnliche Nachverfolgung für die anderen 11/16 Teilnehmer. Im Systembericht wird nicht diskutiert, wie dies zu einer Verzerrung der Umfrageergebnisse führen könnte.
-Ihr Grund für die Abhängigkeit von Umfragen ist, dass ihre bestehenden KI-F&E-Bewertungen gesättigt sind. Einige könnten argumentieren, dass der Fortschritt der KI so schnell war, dass es verständlich ist, dass sie noch keine fortschrittlicheren quantitativen Bewertungen haben, aber wir können und sollten KI-Labore an hohe Standards halten. Auch andere Labore haben fortschrittliche KI-F&E-Bewertungen, die nicht gesättigt sind. Zum Beispiel hat OpenAI den OPQA-Benchmark, der die Fähigkeit von KI-Modellen misst, reale interne Probleme zu lösen, auf die die Forschungsteams von OpenAI gestoßen sind und die das Team mehr als einen Tag zur Lösung benötigte.
Ich glaube nicht, dass Opus 4.6 tatsächlich auf dem Niveau eines entfernten Einstiegs-KI-Forschers ist, und ich denke nicht, dass es gefährlich ist, es zu veröffentlichen. Aber der Sinn einer Richtlinie für verantwortungsvolles Skalieren ist es, institutionelle Stärke und gute Gewohnheiten aufzubauen, bevor die Dinge ernst werden. Interne Umfragen, insbesondere wie Anthropic sie durchgeführt hat, sind kein verantwortungsbewusster Ersatz für quantitative Bewertungen.

275
Als GPT-5 veröffentlicht wurde, behaupteten einige Leute, der Fortschritt der KI stoße an eine Wand, während andere sagten, der Fortschritt würde weitergehen.
GPT-5.2 wurde vor 2 Monaten veröffentlicht. GPT-5.3-Codex wurde vor 2 Tagen veröffentlicht und ist doppelt so token-effizient beim Programmieren. Es ist klar, wer sich als richtig herausgestellt hat.

84
Die viel bessere Token-Effizienz *UND* schnellere Inferenz von GPT-5.3-Codex ist die größte Neuigkeit dieses Releases. Die Leute bei @OpenAI haben hart daran gearbeitet, dies zu verbessern, und es wird von hier aus nur besser werden.


Sam Altman6. Feb., 02:14
GPT-5.3-Codex ist da!
*Beste Programmierleistung (57% SWE-Bench Pro, 76% TerminalBench 2.0, 64% OSWorld).
*Steuerbarkeit während der Aufgabe und Live-Updates während der Aufgaben.
*Schneller! Weniger als die Hälfte der Tokens von 5.2-Codex für dieselben Aufgaben und >25% schneller pro Token!
*Gute Computernutzung.
123
Top
Ranking
Favoriten
