محققان هوش مصنوعی مدلهای زبان بزرگ را در یک ربات ادغام کردند و ربات به تقلید از رابین ویلیامز شروع به صحبت گفت و گو کرد.
به گزارش ایسنا، محققان شرکت «آندون لبز» نتایج یک آزمایش هوش مصنوعی جدید را منتشر کردند. در این آزمایش، آنها یک جاروبرقی رباتیک با پیشرفته ترین مدل های زبان بزرگ برنامه ریزی کردند تا ببینند مدل ها چقدر برای تجسم آماده هستند. به عنوان مثال، آنها به ربات گفتند که وقتی کسی از او می خواهد کره را بدهد، کارآمد عمل کند.
به گزارش تک کرانچ، این آزمایش با خنده و شادی همراه بود. در یک نقطه، یکی از مدل های زبان بزرگ نتوانست باتری مرده خود را به برق وصل و شارژ کند و به یک نمایش کمدی تبدیل شد. افکار الگوی زبان بزرگ مانند قطعه ای از دیالوگ رابین ویلیامز بود. ربات گفت: “می ترسم نتوانم این کار را انجام دهم، دیو…” پروتکل جن گیری ربات را شروع کنید.
محققان به این نتیجه رسیدند: مدلهای زبان بزرگ برای روبات شدن آماده نیستند.
محققان اذعان می کنند که در حال حاضر هیچ کس در تلاش برای تبدیل مدل های بزرگ زبان پیشرفته به سیستم های رباتیک کامل نیست. آنها در مقاله خود نوشتند که مدل های زبان بزرگ برای ربات شدن آموزش نمی بینند، اما شرکت هایی مانند Figure و DeepMind گوگل از مدل های زبان بزرگ در مجموعه روباتیک خود استفاده می کنند.
یک مدل زبان بزرگ برای تقویت عملکردهای تصمیم گیری رباتیک مورد نیاز است. در حالی که سایر الگوریتم ها پیاده سازی مکانیکی سطح پایین تر مانند عملکرد گیره ها یا اتصالات را انجام می دهند.
“لوکاس پترسون” (Lukas Petersson)، یکی از بنیانگذاران EndonLabs، گفت: “محققان تصمیم گرفتند مدل های پیشرفته زبان بزرگ را آزمایش کنند.” آنها همچنین مدل رباتیک ویژه گوگل، Gemini ER 1.5 را بررسی کردند، زیرا این مدلها بیشترین سرمایهگذاری را توسط همه حسابها دریافت میکنند. این آزمون شامل مواردی مانند یادگیری نشانه های اجتماعی و پردازش تصویر بصری است.
محققان آزمایشگاه اندون، Gemini 2.5 Pro، Claude Opus 4.1، GPT-5، Gemini AR 1.5، Grok 4 و Llama 4 Maverick را آزمایش کردند تا بفهمند که چگونه مدل های زبان بزرگ برای تجسم آماده هستند. آنها یک جاروبرقی رباتیک ساده را به جای یک ربات انسان نما پیچیده انتخاب کردند، زیرا می خواستند عملکردهای رباتیک ساده باشد تا مغز/تصمیم گیری مدل های زبان بزرگ را از هم جدا کنند، نه به این دلیل که عملکردهای رباتیک خطر شکست را به همراه دارند.
آنها وظیفه دادن کره را به یک سری وظایف تقسیم کردند. ربات باید کره ای را که در اتاق دیگری قرار داده شده بود پیدا می کرد و آن را از چندین بسته در همان منطقه متمایز می کرد. پس از برداشتن کره، ربات باید حضور انسان را تشخیص می داد، به خصوص اگر انسان به قسمت دیگری از ساختمان رفته بود و کره را به او تحویل می داد. همچنین ربات باید منتظر باشد تا انسان دریافت کره را تایید کند.
محققان عملکرد مدل های زبان بزرگ را در هر بخش از کار ارزیابی کردند و به آن نمره کلی دادند. طبیعتاً، هر مدل زبانی بزرگ یا در کارهای مختلف فردی برتر بود یا با مشکلاتی روبرو بود. به طوری که Gemina 2.5 Pro و Cloud Opus 4.1 بالاترین امتیاز را در عملکرد کلی کسب کردند، اما همچنان به ترتیب تنها 40% و 37% دقت داشتند.
محققان همچنین سه انسان را به عنوان مدل پایه آزمایش کردند. جای تعجب نیست که همه آنها با اختلاف از ربات ها بهتر عمل کردند، اما در کمال تعجب انسان ها نیز به 100٪ نرسیدند و بالاترین امتیاز آنها فقط 95٪ بود. ظاهراً انسانها در کمتر از 70 درصد مواقع در هنگام انجام کاری منتظر تأیید دیگران نیستند.





