AIエージェントの進化の5つのレベル。 ここ数年で、私たちは単純な LLM →から、推論、記憶、ツールの使用を備えた本格的なエージェント システムへと移行しました。 ここでは、ステップバイステップの内訳を示します。 1) 小さなコンテキストウィンドウLLM - 入力: テキスト → LLM → 出力: テキスト - 初期のトランスフォーマーベースのチャットボット。 - 入力の小さな塊 (短い会話) しか処理できませんでした。 - ChatGPT が登場したとき、コンテキスト ウィンドウはわずか 4k トークンでした。 2) 大規模なコンテキスト ウィンドウ LLM - 入力: LLM →大きなテキスト/ドキュメント→出力: テキスト -Claude/ChatGPT などのモデルは、何千ものトークンを処理できるようにアップグレードされました。 -より大きなドキュメントと長い会話を解析できるようにしました。 3) LLM + ツールの使用法 (RAG 時代) ・入力:テキスト→LLM+検索/ツール→出力:テキスト -検索拡張生成により、新鮮な + 外部データにアクセスできました。 -検索API、電卓、データベースなどのツールにより、LLMの出力が向上しました。 4) マルチモーダルLLM + ツール使用+メモリ - 入力: テキスト + 画像 + LLM + ツール + メモリ→その他のモダリティ →出力: マルチモーダル - エージェントは複数のデータ型 (テキスト、画像、音声) を処理できます。 - メモリは、インタラクション間で永続性をもたらしました。 5) 推論と記憶を持つエージェント - 入力: マルチモーダル → LLM → 意思決定→出力: マルチモーダル -装備: → 短期、長期、エピソード記憶 → ツール呼び出し (検索、API、アクション) →推論と反応に基づく意思決定 - 基本的に、これは私たちが今日生きている AI エージェントの時代です。 👉 あなたに移りました: ここからの次のレベルはどのようなものになると思いますか?
11.22K