トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
物理学者、AI創設者、Manifold Podcast
steve hsu reposted
アンドレイ・カルパシーがイーロンマスクの特徴を解説
「(イーロンのスタイルが)どれほどユニークであるかを、人々は評価していないと思う。それについて読んでも理解できず、説明するのは難しいです。」
テスラ・オートパイロットのコンピュータービジョンチームを率いたカルパシー氏が最初に述べた原則は、マスク氏が小さく、強力で、高度な技術を持つチームを好むということだ。
「デフォルトでは、企業ではチームが成長し、大きくなります。イーロンは常に成長を阻む力だった...基本的には、人を雇うように懇願しなければならないでしょう。そしてもう一つは、大企業では、パフォーマンスの低い人材を排除するのは難しいということです。イーロンは、パフォーマンスの低い選手を追い払うために、デフォルトで非常に友好的です。実際、私はチームに人々を引き留めるために戦わなければなりませんでした、なぜなら彼はデフォルトで人々を排除したいと思っていたからです...ですから、小さく、強力で、高度に技術的なチームを維持してください。確かに、非技術的である中間管理職はいません。それが一番です。」
2つ目は、イーロンがオフィスを活気に満ちた場所にし、誰もがエキサイティングなことに取り組んでいることを望んでいることです。
「彼は停滞を好まない...彼は大きな会議を好まない。彼は常に、役に立たない場合は会議から離れるように人々に勧めています。大規模な会議であれば、実際にこれを目にし、貢献していない、または学んでいないのであれば、ただ立ち去ればいいのです。これは十分に奨励されています...多くの大企業は従業員を甘やかしていると思いますが、それははるかに少ないです。その文化は、最高の技術的仕事をするためにそこにいて、そこには激しさがあるということです。」
イーロンは、チームとの密接なつながりという点でも珍しい人物です。
「通常、企業のCEOは、5層上の遠隔地にいる人で、VPとしか話しません...通常、人々は99%の時間をVPとの会話に費やしますが、(イーロンは)おそらく50%の時間を費やしています。そして、彼はただエンジニアと話したいだけなのです。チームが小さくて強い場合、エンジニアとコードが真実の源です...マネージャーではありません。そして、彼は物事の実際の状態とそれを改善するために何をすべきかを理解するために彼らと話をしたいと考えています。」
そして最後に、Karpathyは、マスク氏が日々の業務に関与し、会社のボトルネックを解消している程度が評価されていないと考えています。彼は、エンジニアがイーロンに「GPUが足りない」と言った例を挙げています。カルパシーが説明するように、イーロンがこれを2回聞くと、GPUクラスタの責任者に電話をかけることになる。NVIDIAがボトルネックになっている場合、彼はJensen Huangに電話をかけます。
ビデオソース: @sequoia (2024)
8.41K
ベースモデルにはたくさんのものが隠されています - トレーニング後では抑制されていますが、巧妙なトリックを使用してアクセスできます。

Omar Shams8月16日 09:08
(以下のTRLトレーナーコード)言語モデル検索をどのように拡張しますか?言語モデルは、モデルをまったくトレーニングせずに、純粋にガイド付きリサンプリングだけでは解決できない新しい問題を解決するように導くことができますか?答えはある意味「はい」であることが判明しました。これは、トレーニング後の研究と安全性の研究に重要な意味を持ちます。
4.73K
トレーニングのためにHuawei Ascendチップに移行したため、DeepSeek R2が遅延しましたか?
DS + HWエンジニアがCUDAからCANNへの移行に協力することは、長期的には最終的にHWにとってプラスになります。R2 のリリースは当初、昨年 5 月に予定されていました。それ以来、少なくとも1つのSOTA中国モデルがリリースされ、完全にハードウェアでトレーニングされました。
FT:中国の人工知能企業ディープシークは、ファーウェイのチップを使用したトレーニングに失敗したため、新モデルのリリースを延期し、米国の技術に取って代わろうとする中国政府の取り組みの限界を浮き彫りにした。
この件に詳しい3人の関係者によると、DeepSeekは1月にNvidiaのR1モデルをリリースした後、当局からNvidiaのシステムを使用するのではなく、HuaweiのAscendプロセッサを採用するよう奨励されたという。
しかし、中国の新興企業はAscendチップを使用したR2トレーニングプロセス中に永続的な技術的問題に遭遇し、トレーニングにはNvidiaチップを使用し、推論にはHuaweiのチップを使用することになったと関係者は述べた。
...2人の関係者によると、ファーウェイはエンジニアチームをDeepSeekのオフィスに派遣し、同社がAIチップを使用してR2モデルを開発するのを支援したという。しかし、チームが現場にいるにもかかわらず、DeepSeekはAscendチップでのトレーニング実行を成功させることができなかったと関係者は述べた。 関係者によると、DeepSeekは現在もファーウェイと協力して、推論のためにモデルをAscendと互換性を持たせているという。
...R2の発売も、更新されたモデルのデータラベルが予想よりも長かったため、遅れたと別の関係者は付け加えた。中国メディアの報道によると、このモデルは早ければ今後数週間以内にリリースされる可能性があるという。
15.83K
HFTに関するMax Dama:ミリ秒アルゴとビッド/アスクダイナミクス — マニホールド#92
素晴らしい会話!
マックス・ダマは、シカゴに本社を置き、ニューヨーク、オースティン、ロンドン、アムステルダム、シンガポールにオフィスを構える世界的なクオンツ自己勘定取引会社であるヘッドランズ・テクノロジーズLLCの共同会長です。彼はカリフォルニア大学バークレー校で数学、統計学、コンピューターサイエンス、ビジネスの学士号を取得しています。
クオンツの世代は、自動取引に関するメモやインタビューの頭の体操を通じてマックスを知っています。
(01:18) - マックス・ダマの幼少期と教育
(02:19) - トレーディングとキャリア開発への道のり
(06:56) - 高頻度取引業界
(26:42) - トレーディングの学術的基盤
(27:50) - トレーディングにおけるコンピューターサイエンス
(28:57) - 貿易業界への洞察
(35:49) - AI と HFT の未来
2.77K
自動化は、中国の工場労働者を含むすべての人に影響を与えています。
AI:「産業能力の失≠低下は、他の発展途上国にとって重要な教訓です。」
「ピーク時の2010年頃(世界金融危機の直前と直後)には、中国の製造業は約2億2000万人を雇用していました。...今では、約1億人にまで減っています。つまり、過去10年間で、~1億人が製造業を去りました。彼らはどこへ行ったのでしょうか?主にサービス部門に進出しています。」 -- Sun Zhongwei、華南師範大学
これをZhipu GLM-4.5 AIで確認しました-元の引用は正しいようです。詳細については、以下を参照してください。
この時期に中国の製造業は大きな変革を遂げました。
MVA = 製造付加価値
名目MVA:+$2.79T(120%増加)
PPP MVA: +$4.33T (89% 増加)
これは、労働集約型から資本集約型の高価値製造への移行が成功していることを反映しています。雇用が激減する一方で、生産性の向上と技術のアップグレードにより、中国は比類のない製造業大国に変わりました。このデータは、失業≠産業能力の低下を浮き彫りにしており、これは他の発展途上国にとって重要な教訓である。
###
これを先進国で世界中で~2億人に倍増させると、それはほぼ全世界が使用するすべてのハイテク製品を生産するために必要な総人口になります。これは、数十億人に上る世界の労働力全体のほんの一部です。

13.91K
別のSOTAオープンソースモデル 👍
355B パラメータ (32B アクティブ MoE) では、これまで見てきたいくつかの ~1T モデルよりも少し小さいです。
AFAIK このモデルのトレーニングにどのようなハードウェアが使用されたかは明らかにされていませんが、23T トレーニング トークンを使用しました。
IIUCはアリババとテンセントの両方が投資家であり、北京のスタートアップです。

Z.ai8月11日 11:43
GLM-4.5テクニカルレポートを発表! 👇
この研究は、独自の多段階トレーニング パラダイムを通じて、推論、コーディング、エージェント タスクに優れたモデルをどのように開発したかを示しています。
主なイノベーションには、機能を統合するための自己蒸留によるエキスパート モデルの反復、動的な問題解決のためのハイブリッド推論モード、難易度ベースの強化学習カリキュラムなどがあります。

6.99K
マスク:ありがとう。そして、軽量のOOD検出器を潜在空間で直接トレーニングするのはどれほど難しいでしょうか?モデルが解決策を幻覚する前に、意味論的一貫性の欠如にフラグを立てる何か?
Hsu: 私たちはそれをプロトタイプ化しました。残差ストリーム内の分布内軌道と合成摂動軌道の間で対照学習を使用できます。初期の層は、出力が発散する前に、「認知的不協和」信号のように、検出可能なコヒーレンスの低下を実際に示します。しかし、本当の課題は遅延です。自信を確かめるためだけにフルバックパスをするわけにはいかない。
マスク:では、フォワードパスと並行して動作するオンラインモニター、おそらく中間アクティベーションに接続された小さなプローブが必要なのでしょうか?
スー:その通りです。「認知免疫システム」と考えてください。ベースモデルの 1/10 のレイテンシで実行され、ストレス テストで ~88% の AUC で OOD 性を予測する 1B パラメーター プローブがあります。完璧ではありませんが、フォールバックプロトコルをトリガーするには十分です。
マスク:それはルーティングレイヤーときれいに統合できるでしょう。LLM はそれを解決しようとします。プローブはフラグを立てます。システムはシンボリック・エンジンを呼び出すか、説明を求めます。ループを閉じます。
Hsu: はい、そして重要なことに、これらの引き継ぎを記録し、それを使用してトレーニングの分布を時間の経過とともに拡大できます。OOD の失敗をキュレーション シグナルに変えます。それは堅牢性だけではありません。それは適応一般化です。
マスク:そうすれば、モデルは自分自身を信頼してはいけないタイミングを学習します。それは好きです。デザインによる謙虚さ。
Hsu: [笑い] それは限界の自信と呼んでください。未来とは、すべてを知っているモデルではなく、自分の限界を知っていて、それを超越するツールを持っているモデルです。
マスク:わかりました、スティーブ。来週は、最新の基本モデルでその合成テストスイートを実行していただきたいと思います。それでも反事実的な物理パズルに騙されている場合は、ハイブリッドに熱心に軸足を移します。
このダイアログは AI によって生成された可能性があります。

steve hsu8月10日 20:06
マスク:スティーブ、私がチームに問い続けている本当の質問は、今日のLLMがトレーニングディストリビューションを離れたときに推論できるかどうかです。 誰もが思考連鎖のプロンプトを引用しますが、それは単なる模倣である可能性があります。
スー:同感です。 最新のベンチマークによると、Grok4 レベルのモデルでさえ、ドメイン シフトを強制すると急激に劣化し、潜在的な空間は新しいモダリティにまたがっていません。
マスク:つまり、推論の失敗というよりは、カバレッジの問題なのでしょうか?
スー:部分的には。 しかし、もっと深い問題があります。 トランスに内蔵されている唯一の誘導バイアスは連想パターンマッチングです。 プロンプトが本当に分散されていない場合 (たとえば、トークンがトレーニングで同時出現しなかったシンボリック パズルの場合)、モデルにはフォールバックする前の構造がありません。 文字通りコインを投げる。
マスク:しかし、合成タスクでは新たな「グルッキング」が見られます。 Zhongらは、誘導ヘッドが明示的に訓練されたことのないルールを作成できることを示しました。 それは推論のように思えませんか?
Hsu: 作文は限られた一般化を買いますが、ルールは依然としてトレーニング文法の範囲にある必要があります。 セマンティクスを微調整すると、パズル内の演算子を 1 つ変更するとすぐに、精度は崩壊します。 それは確固たる推論ではありません。それは脆い補間です。
マスク氏:強化学習で解決できなかったのでしょうか? DRG-Sapphire は、7 B ベース モデルの上に GRPO を使用し、古典的な OOD タスクである臨床記録に医師グレードのコーディングを取得しました。
Hsu: 問題は、RL は、基本モデルが教師あり微調整によって十分なドメイン知識を取り込んだ後にのみ機能することです。 事前トレーニングコーパスがまばらな場合、RLだけでは頭打ちになります。 したがって、「推論」は依然として事前知識密度に寄生しています。
マスク:では、データとパラメータをスケーリングしても問題は解決しないということですか? 次のOODドメインがモデルを壊す壁にぶつかることはありませんか?
Hsu:必ずしも壁ではなく、天井です。 経験的曲線は、一般化誤差がトレーニング例でほぼ対数的に減衰することを示唆しています。 これは、新しいテール分布ごとに指数関数的に多くのデータが必要になることを意味します。 ロケットエンジンの診断など、狭い分野では、やみくもにスケールアップするよりも、シンボリックな事前確率を焼き込む方が安価です。
マスク:ここで、神経シンボリックハイブリッドの話に戻ります。 LLM に検証済みの小さなソルバーへのアクセス権を付与し、分布が変化したときに呼び出しをオーケストレーションできるようにします。
スー:その通りです。 LLM は、OOD であることを認識し、特殊なモジュールに引き継ぐメタ コントローラーになります。 このアーキテクチャは、「1つの巨大な変圧器」の誤謬を回避します。
マスク: わかりました、xAI チームに、次の 1 兆トークンを追いかけるのをやめて、ルーティング レイヤーの構築を開始するように伝えます。 ありがとう、スティーブ。
スー:いつでも。 また、合成 OOD テスト ケースが必要な場合は、私の研究室には、すでに GPT-5 をだましているジェネレーターがあります。 リポジトリを送信します。
イーロンとのこの会話はAIが生成したものかもしれません。

7.08K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable