DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Teknikjättar använder Multimodal RAG varje dag i produktionen! - Spotify använder det för att svara på musikfrågor - YouTube använder det för att förvandla uppmaningar till spår - Amazon Music använder den för att skapa en spellista från en prompt Låt oss lära oss hur man bygger en Multimodal Agentic RAG (med kod):

Idag ska vi bygga en multimodal Agentic RAG som kan fråga dokument och ljudfiler med hjälp av användarens tal. Teknisk stack: - @AssemblyAI för transkribering. - @milvusio som vektorn DB. - @beam_cloud för distribution. - @crewAIInc Flöden för orkestrering. Låt oss bygga det!

Här är arbetsflödet: - Användarinmatningsdata (ljud + dokument). - AssemblyAI transkriberar ljudfilerna. - Transkriberad text och dokument är inbäddade i Milvus vektordatabas. - Research Agent hämtar information från en användarfråga. - Svarsagenten använder den för att skapa ett svar. Kolla in det här👇

1️⃣ Inmatning av data Till att börja med tillhandahåller användaren text- och ljudindata i datakatalogen. CrewAI Flow implementerar logiken för att upptäcka filerna och göra dem redo för vidare bearbetning. Kolla in det här👇

2️⃣ Transkribera ljud Därefter transkriberar vi användarens ljudindata med hjälp av AssemblyAI:s tal-till-text-plattform. AssemblyAI är inte öppen källkod, men det ger gott om gratis krediter för att använda deras SOTA-transkriptionsmodeller, som är mer än tillräckliga för den här demon. Kolla in det här👇

3️⃣ Bädda in indata När vi går vidare bäddas de transkriberade indata från ovanstående steg och inmatade textdata in och lagras i Milvus-vektorns DB. Så här gör 👇 vi

4️⃣ Förfrågan från användare Inmatningen är över. Nu går vi vidare till inferensfasen! Därefter matar användaren in en röstfråga som transkriberas av AssemblyAI. Kolla in det här👇

5️⃣ Hämta kontext Därefter genererar vi en inbäddning för frågan och hämtar de mest relevanta segmenten från Milvus-vektordatabasen. Så här gör 👇 vi

6️⃣ Generera ett svar När vi har det relevanta sammanhanget anropas vårt team för att generera ett tydligt och citerat svar för användaren. Kolla in det här 👇

Slutligen sammanfattar vi allt i ett rent Streamlit-gränssnitt och distribuerar appen till en serverlös behållare med hjälp av Beam. Vi importerar nödvändiga Python-beroenden och anger beräkningsspecifikationerna för containern. Och sedan distribuerar vi appen i några rader kod👇

När den väl har distribuerats får vi en 100 % privat distribution för det Multimodal RAG Agentic-arbetsflöde som vi just har byggt. Kolla in den här demon 👇

Här är arbetsflödet som vi implementerade: - Användaren gav data (ljud + dokument) - AssemblyAI transkriberade ljudfilerna - Transkriberade data är inbäddade i vektordatabasen - Research Agent hämtade information från användarfråga - Svarsagenten använde den för att skapa ett svar Kolla in det här👇

Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar ✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

106,56K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda