במרוץ לפיתוח בינה מלאכותית, כל חברה מתמקדת בהתמחות מסוימת. בעוד שחלקן מתמקדות במשימות ספציפיות כמו תרגום שפות, אחרות שואפות לפתח בינה "רב-מודלית" המסוגלת להבין את העולם. גוגל, דרך מעבדת המחקר שלה DeepMind, עובדת על Google Project Astra, שיכול לענות על הדרישה הזו.
להבין את העולם
לפי דיווח של _9to5Google_ , מנכ"ל גוגל סונדר פיצ'אי הכריז בכנס ש-_Google Project Astra_ עשוי להיות זמין על גבי _Gemini Live_, העוזר הקולי של גוגל, כבר ב-2025.
> _"גוגל מפתחת חוויות שבהן ה-AI יכול לראות ולהסיק מסקנות מהעולם סביבכם."_
> — סונדר פיצ'אי
כדי להבין כיצד _Google Project Astra_ שונה מ-AI שאנחנו מכירים, חשוב להתבונן באופני השימוש בו. כיום, כששואלים שאלה למערכת בינה מלאכותית, ניתן לקבל תשובה ספציפית ולעיתים מדויקת, אך עדיין בתחום מסוים: טקסט, תמונה או וידאו.
מערכות AI "רב-מודליות" נבדלות ביכולתן לפרש סוגים שונים של נתונים בו-זמנית, ובכך לשקף את הדרך שבה בני אדם מתקשרים עם העולם.
המטרה היא להפוך את החיפושים בסופו של דבר לטבעיים יותר ולאפשר שיחה עם ה-AI מבלי צורך לספק את כל הנתונים לפני שאנו שואלים שאלה. משולב ב-Gemini, ניתן יהיה לדמיין מצב שבו מצלמים מבנה באמצע עיר במהלך טיול ופשוט שואלים: "מה זה?".
https://www.youtube.com/watch?v=nXVvvRhiGjI&ab\_channel=Google
- Google Project Astra שואף להפוך אינטראקציות עם AI לטבעיות יותר, כך שניתן יהיה לשאול שאלות ללא צורך בפרטים מקדימים, כמו זיהוי מבנה לא מוכר בצילום פשוט.