PUMP publiczna sprzedaż zakończona, pierwotnie również miałem dużą kwotę na Bybit, na łańcuchu tylko 1/2, ostatecznie tylko na łańcuchu udało się zrealizować, na szczęście nie zabezpieczyłem się wcześniej… Mówiąc o tym, ostatnio w społeczności AI wiele osób dyskutuje o VLA (Vision‑Language‑Action). Szczególnie zbadałem, czy na łańcuchu są projekty związane z VLA, zobaczyłem ten projekt CodecFlow @Codecopenflow i kupiłem trochę. == Czym zajmuje się projekt CodecFlow == Krótko mówiąc o VLA, VLA to model, który pozwala AI nie tylko „mówić”, ale także „działać”. Tradycyjne LLM (jak GPT) potrafią tylko rozumieć język, udzielać sugestii, ale nie potrafią działać, klikać na ekranie ani chwytać obiektów. Model VLA oznacza zintegrowanie trzech głównych zdolności: 1. Vision (wzrok): rozumieć obrazy, zrzuty ekranu, dane z kamer lub czujników 2. Language (język): rozumieć naturalne polecenia w języku ludzkim 3. Action (działanie): generować wykonalne polecenia, takie jak kliknięcia myszką, wprowadzanie z klawiatury, kontrolowanie ramienia robota. CodecFlow zajmuje się VLA na łańcuchu, wszystkie procesy operacyjne mogą być również zapisane na łańcuchu, co umożliwia audyt, weryfikację i rozliczenie. Mówiąc prosto, to podstawowa infrastruktura „robota AI”. == Dlaczego szczególnie zwracam uwagę na ten projekt? == Zauważyłem, że ich deweloperzy są kluczowymi współtwórcami najpopularniejszego projektu open source w dziedzinie VLA, LeRobot! LeRobot to wiodąca baza do budowy modeli VLA w świecie open source, w tym SmolVLA, które mogą działać na laptopach. To oznacza, że ten zespół naprawdę rozumie architekturę VLA i roboty. Widzę, że nadal intensywnie pracują nad rozwojem, a cena monet stabilnie rośnie, osobiście bardzo wierzę w tor VLA, a z ogólnych trendów wynika, że VLA i roboty mają przyszłość na rynku. • Giganci Web2 (Google, Meta, Tesla) obecnie w pełni angażują się w VLA i szkolenie robotów; • Projekty Web3 rzadko mają aplikacje VLA, które mogą wykonywać zadania, co jest bardzo rzadkie. • VLA ma szansę na ogromną wartość w scenariuszach takich jak DePIN, automatyzacja Web, wykonywanie zadań przez AI na łańcuchu. CA: 69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Zawsze DYOR.
CodecFlow
CodecFlow26 cze 2025
Kim jest operator $CODEC? To właśnie tutaj modele Wizja-Język-Działanie w końcu sprawiają, że sztuczna inteligencja jest przydatna w prawdziwej pracy. Operator to autonomiczny agent oprogramowania oparty na modelach VLA, który wykonuje zadania poprzez ciągły cykl postrzegania-rozumu-działania. LLM potrafią genialnie myśleć i mówić, ale nie mogą niczego wskazywać, klikać ani chwytać. Są to czysto rozumne silniki z zerowym uziemieniem w świecie fizycznym. VLA łączą percepcję wzrokową, rozumienie języka i ustrukturyzowane dane wyjściowe działania w jednym przebiegu do przodu. Podczas gdy LLM opisuje, co powinno się wydarzyć, model VLA faktycznie sprawia, że tak się dzieje, emitując współrzędne, sygnały sterujące i polecenia wykonywalne. Przepływ pracy operatora jest następujący: - Percepcja: przechwytuje zrzuty ekranu, obrazy z kamery lub dane z czujników. - Rozumowanie: przetwarza obserwacje wraz z instrukcjami w języku naturalnym przy użyciu modelu VLA. - Działanie: podejmuje decyzje poprzez interakcje z interfejsem użytkownika lub sterowanie sprzętowe — wszystko w jednej ciągłej pętli. Przykłady: LLM vs. Operator obsługiwany przez model VLA Planowanie spotkania LLM: Zawiera szczegółowe wyjaśnienie zarządzania kalendarzem, przedstawiając kroki planowania spotkania. Operator z modelem VLA: - Przechwytuje pulpit użytkownika. - Identyfikuje aplikację kalendarza (np. Outlook, Kalendarz Google). - Przechodzi do czwartku, tworzy spotkanie o godzinie 14:00 i dodaje uczestników. - Automatycznie dostosowuje się do zmian w interfejsie użytkownika. Robotyka: Sortowanie obiektów LLM: Generuje precyzyjne pisemne instrukcje dotyczące sortowania obiektów, takie jak identyfikowanie i organizowanie czerwonych komponentów. Operator z modelem VLA: - Obserwuje przestrzeń roboczą w czasie rzeczywistym. - Identyfikuje czerwone komponenty wśród mieszanych obiektów. - Planuje bezkolizyjne trajektorie ramienia robota. - Wykonuje operacje pick-and-place, dynamicznie dostosowując się do nowych pozycji i orientacji. Modele VLA w końcu wypełniają lukę między sztuczną inteligencją, która potrafi myśleć o świecie, a sztuczną inteligencją, która może go faktycznie zmienić. To one przekształcają automatyzację z kruchego przestrzegania reguł w adaptacyjne rozwiązywanie problemów — inteligentnych pracowników. "Tradycyjne skrypty psują się, gdy zmienia się środowisko, ale operatorzy wykorzystują zrozumienie wizualne, aby dostosować się w czasie rzeczywistym, obsługując wyjątki zamiast się na nich zawieszać".
11,23K