מעבר לחשיבה אנושית: OpenAI משיקה את מדד GeneBench-Pro ומציגה את יכולות ה-GPT-5.6 החדש

חברת OpenAI ממשיכה לדחוף את גבולות הבינה המלאכותית הרחק מעבר לצ'אטבוטים ולעוזרים המשרדיים המוכרים, ומציגה הצצה דרמטית ליכולות המדעיות של מודלי הדגל החדשים שלה. החברה פרסמה מחקר מקיף המציג את GeneBench-Pro - מערך מבחנים (Benchmark) ברמה אקדמית עילאית, שנועד למדוד כיצד סוכני AI מתמודדים עם עמימות ומקבלים החלטות הרות גורל בתחום הביולוגיה החישובית והגנטיקה. המבחן החדש אינו דורש מהמודל רק לשלוף עובדות יבשות, אלא לבצע ניתוחים מערכתיים מורכבים, להפריד בין רעש סטטיסטי לממצאים ביולוגיים אמיתיים, ולתכנן את הצעדים הבאים במחקר רפואי.

הנתונים המרתקים ביותר במחקר חושפים את פערי הדורות בין המודלים השונים ואת היכולות של משפחת הדגל החדשה, GPT-5.6. בעוד שמודל GPT-5 הבסיסי קיבל ציון של פחות מ-5% במבחן המדעי המורכב, הדגמים המתקדמים ביותר המבוססים על ארכיטקטורת GPT-5.6 (תחת שמות הקוד Luna, Terra ו-Sol) הציגו זינוק מטאורי בביצועים. גרסת העל, GPT-5.6 Sol, הצליחה לפתור פי שישה יותר בעיות מדעיות מורכבות בהשוואה למודלים המוקדמים של סדרת GPT-5.2, תוך שהיא מנצלת שני שלישים בלבד מכמות הטוקנים, מה שמעיד על יעילות ארכיטקטונית חסרת תקדים.

לפי הניתוח של OpenAI, פריצת הדרך הושגה הודות ליישום אסטרטגיית 'Compute Scaling בזמן בדיקה' (Test-time Compute). במקום למהר ולפלוט את התשובה הראשונה שעולה, המודל משתמש בכוח מחשוב דינמי כדי 'לחשוב', לבצע סימולציות פנימיות, לבקר את עצמו ולתקן את מסלול החשיבה שלו לפני הצגת התוצאה הסופית לחוקר. החברה מעריכה כי בקצב ההתקדמות הנוכחי, המודלים החדשים יצליחו להגיע לרוויה מלאה ולפתרון מושלם של המבחן הביולוגי כבר לקראת סוף השנה הנוכחית. המהלך הזה מסמן את המעבר הרשמי של עולם ה-AI משלב הפרודוקטיביות המשרדית לשלב המחקר המדע האוטונומי, שיכול להאיץ פיתוח תרופות ומחקרים גנטיים ברחבי העולם.

תגיות נושא