OpenAI חושפת את o1 מודל AI פורץ דרך

OpenAI הציגה מוצר חדש בשם o1, הראשון במשפחה של מודלי בינה מלאכותית שיכולים "לחשוב" כדי לענות על שאלות ולפתור בעיות מורכבות בצורה יעילה יותר מבני אדם.

המודל החדש הזה לא נועד להיות מהיר במיוחד; למעשה, הוא עשוי להיות איטי יותר באופן משמעותי מגרסאות שונות של GPT-4, המודל שמפעיל את הגרסה האחרונה של ChatGPT. זה בגלל שהוא עדיין בשלב התחלתי, אבל גם בגלל בחירה מכוונת של החברה. הם מסבירים שהם אימנו את המודל "להקדיש יותר זמן לחשוב לפני שהוא עונה, כמו שאדם היה עושה". "באמצעות האימון הזה, הוא לומד לשפר את תהליך החשיבה שלו, לנסות אסטרטגיות שונות ולהכיר בטעויות שלו", נמסר בהודעה.

מודל שמיועד לפתור בעיות בצורה יעילה

לכן, המודל o1 פחות מיועד לכתיבת טקסטים ויותר לפתרון בעיות מורכבות. OpenAI טוענת שבעדכון האחרון שלו, המודל מגיע לרמת דוקטורנט כשמדובר במקצועות כמו פיזיקה, כימיה וביולוגיה, והוא מצטיין במיוחד במתמטיקה ובתכנות.

כדי להמחיש את היכולות שלו, OpenAI בחנה את o1 באולימפיאדת המתמטיקה הבינלאומית, תחרות לתלמידי תיכון, רמה הרבה יותר נמוכה מדוקטורנטים, כפי שהוזכר קודם לכן. למרות הפער, התוצאות היו מרשימות: בתנאים זהים לאלו של בני אדם (10 שעות לפתרון שישה בעיות מורכבות), o1 השיג 83%. לשם השוואה, GPT-4o הצליח לפתור רק 13% מהבעיות. בתחום התכנות, הוא נבדק בתחרויות Codeforce והגיע לאחוזון ה-89.

באופן רחב יותר, OpenAI מעריכה שהמודל הזה יכול להיות מועיל במיוחד לאנשים שעובדים עם בעיות מורכבות בתחומים כמו מדע, מחשוב ומתמטיקה. "לדוגמה, o1 יכול לשמש חוקרי רפואה לצורך סימון נתוני ריצוף תאים, פיזיקאים ליצירת נוסחאות מתמטיות מורכבות לפתרון בעיות באופטיקה קוונטית, ומפתחים בכל התחומים לבניית תהליכי עבודה מרובי שלבים."

סוף סוף מודל עם "שרשרת מחשבה"

כדי להגיע להישג הזה, החברה של סם אלטמן התמקדה בגישת "שרשרת המחשבה" (Chain of Thought - CoT), שיטה מבטיחה שכבר נבדקה על ידי אמזון בשנה שעברה.

הגישה הזו מנוגדת לזו של מודלים כמו GPT-4o, המשתמשים בשיטה המכונה "הנחיה סטנדרטית". באופן כללי, זה אומר שהם מנסים לנתח את השאלה כולה במכה אחת. זה הופך אותם ליעילים מאוד במשימות שקלות ואינטואיטיביות עבור בני אדם. עם זאת, כשהם נדרשים לפרק בעיות לכמה שלבים, המודלים הללו נוטים להסתבך ולתת תשובות חסרות היגיון, שידועות בשם "הזיות".

עם גישת Chain of Thought, המודל יכול לפרק את הבעיה לשלבים ולעבוד בצורה הדרגתית, בדומה לדרך שבה בני אדם פותרים בעיות מורכבות. בכך שהוא מפרק את הבעיה, האלגוריתם מסוגל לספק תשובה מפורטת יותר, עם סיכוי גבוה יותר להיות נכונה.

OpenAI גם סבורה שהגישה הזו מציעה יתרונות מבחינת אבטחה. "אנחנו חושבים שגישת 'שרשרת המחשבה' מציעה הזדמנות ייחודית לפיקוח על המודלים. לדוגמה, בעתיד נוכל לעקוב אחר שרשרת המחשבה כדי לאתר סימנים של מניפולציה מצד המשתמש", נכתב בהודעה.

בין התקדמות אמיתית לאשליה

כפי שהוזכר קודם לכן, המודל עדיין רחוק מלהיות בשל לחלוטין; OpenAI אף מתארת אותו כ"גרסת תצוגה". ניכר שהחברה השקיעה מאמצים רבים כדי לגרום למודל להיראות "חכם" יותר ממה שהוא באמת.

בניגוד ל-GPT-4o, התשובות של המודל החדש מלאות בביטויים כמו "אני חושב על...", "אני בוחן את הבעיה מנקודת מבט של...", או "בסדר, תן לי לבדוק" — ביטויים רטוריים שיוצרים אשליה של תהליך חשיבה מעמיק. זה יכול להיתפס כהטעיה, ובמובן מסוים זה נכון. השפה הזו משחקת על הנטייה האנושית לראות במודלים הללו משהו יותר ממה שהם באמת.

OpenAI, לעומת זאת, לא רואה זאת כהטעיה. לפי דיווח של The Verge , החברה רואה בכך דרך להראות שהמודל שלה "חושב" בצורה מעמיקה יותר מאשר GPT-4o ודומיו. עם זאת, אפשר לתהות אם גישה זו אכן יעילה, שכן משתמשים שמבקשים לפתור בעיות אמיתיות עשויים למצוא את השפה הזו יותר מעצבנת מאשר מועילה.

למרות זאת, o1 עדיין מהווה צעד משמעותי קדימה ביכולות של מודלים מבוססי בינה מלאכותית לפתור בעיות אמיתיות. יהיה מעניין לעקוב אחרי ההתפתחות של המוצר הזה, שיש לו פוטנציאל בלתי מבוטל. מנויים ל-ChatGPT Plus יכולים כבר היום להתחיל להתנסות במודל, בעוד שמשתמשי הגרסה החינמית יצטרכו להמתין עוד כמה שבועות.

- מודל o1 של OpenAI עדיין בשלבי פיתוח מוקדמים ומוצג כגרסת תצוגה, עם מראה של "חוכמה" מעבר ליכולותיו האמיתיות.

- המודל משתמש בביטויים כמו "אני חושב על..." כדי ליצור אשליה של חשיבה מעמיקה, מה שעלול להטעות חלק מהמשתמשים.

- OpenAI טוענת שהשימוש בשפה הזו מדגיש שהמודל "חושב" בצורה מעמיקה יותר מאשר מודלים קודמים כמו GPT-4o.

- למרות הביקורת על הסגנון השיחתי של o1, הוא מציע שיפור משמעותי בפתרון בעיות אמיתיות, בעיקר בתחומים כמו מדע, מתמטיקה ותכנות.

- משתמשי ChatGPT Plus יכולים כבר להתחיל להתנסות במודל החדש, בעוד שמשתמשי הגרסה החינמית יוכלו לעשות זאת בעוד מספר שבועות.