Teknikjättar använder Multimodal RAG varje dag i produktionen! - Spotify använder det för att svara på musikfrågor - YouTube använder det för att förvandla uppmaningar till spår - Amazon Music använder den för att skapa en spellista från en prompt Låt oss lära oss hur man bygger en Multimodal Agentic RAG (med kod):
Idag ska vi bygga en multimodal Agentic RAG som kan fråga dokument och ljudfiler med hjälp av användarens tal. Teknisk stack: - @AssemblyAI för transkribering. - @milvusio som vektorn DB. - @beam_cloud för distribution. - @crewAIInc Flöden för orkestrering. Låt oss bygga det!
Här är arbetsflödet: - Användarinmatningsdata (ljud + dokument). - AssemblyAI transkriberar ljudfilerna. - Transkriberad text och dokument är inbäddade i Milvus vektordatabas. - Research Agent hämtar information från en användarfråga. - Svarsagenten använder den för att skapa ett svar. Kolla in det här👇
1️⃣ Inmatning av data Till att börja med tillhandahåller användaren text- och ljudindata i datakatalogen. CrewAI Flow implementerar logiken för att upptäcka filerna och göra dem redo för vidare bearbetning. Kolla in det här👇
2️⃣ Transkribera ljud Därefter transkriberar vi användarens ljudindata med hjälp av AssemblyAI:s tal-till-text-plattform. AssemblyAI är inte öppen källkod, men det ger gott om gratis krediter för att använda deras SOTA-transkriptionsmodeller, som är mer än tillräckliga för den här demon. Kolla in det här👇
3️⃣ Bädda in indata När vi går vidare bäddas de transkriberade indata från ovanstående steg och inmatade textdata in och lagras i Milvus-vektorns DB. Så här gör 👇 vi
4️⃣ Förfrågan från användare Inmatningen är över. Nu går vi vidare till inferensfasen! Därefter matar användaren in en röstfråga som transkriberas av AssemblyAI. Kolla in det här👇
5️⃣ Hämta kontext Därefter genererar vi en inbäddning för frågan och hämtar de mest relevanta segmenten från Milvus-vektordatabasen. Så här gör 👇 vi
6️⃣ Generera ett svar När vi har det relevanta sammanhanget anropas vårt team för att generera ett tydligt och citerat svar för användaren. Kolla in det här 👇
Slutligen sammanfattar vi allt i ett rent Streamlit-gränssnitt och distribuerar appen till en serverlös behållare med hjälp av Beam. Vi importerar nödvändiga Python-beroenden och anger beräkningsspecifikationerna för containern. Och sedan distribuerar vi appen i några rader kod👇
När den väl har distribuerats får vi en 100 % privat distribution för det Multimodal RAG Agentic-arbetsflöde som vi just har byggt. Kolla in den här demon 👇
Här är arbetsflödet som vi implementerade: - Användaren gav data (ljud + dokument) - AssemblyAI transkriberade ljudfilerna - Transkriberade data är inbäddade i vektordatabasen - Research Agent hämtade information från användarfråga - Svarsagenten använde den för att skapa ett svar Kolla in det här👇
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar ✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀5 aug. 20:30
Teknikjättar använder Multimodal RAG varje dag i produktionen! - Spotify använder det för att svara på musikfrågor - YouTube använder det för att förvandla uppmaningar till spår - Amazon Music använder den för att skapa en spellista från en prompt Låt oss lära oss hur man bygger en Multimodal Agentic RAG (med kod):
106,56K