এআই মডেলগুলো নিজেই জানে না কী উত্তর দিচ্ছে: গবেষণা

এমআইটি, হার্ভার্ড ও শিকাগো বিশ্ববিদ্যালয়ের গবেষকরা লার্জ ল্যাঙ্গুয়েজ মডেলগুলোর ব্যর্থতার নতুন ধরন শনাক্ত করেছেন। তারা এর নাম দিয়েছেন ‘পটেমকিন আন্ডারস্ট্যান্ডিং’। এই ব্যর্থতার ধরনটি এমন পরিস্থিতিকে বোঝায় যেখানে মডেলগুলো জটিল বা ধারণাগত পরীক্ষায় চমৎকার ফলাফল করে তবে বাস্তব জীবনে সে ধারণাগুলো ব্যবহার করতে পারে না।
পটেমকিন শব্দটি এসেছে ‘পটেমকিন গ্রাম’ নামের একটি ঐতিহাসিক ঘটনা থেকে, যেখানে রুশ সামরিক নেতা গ্রিগরি পটেমকিন রানী দ্বিতীয় ক্যাথরিনকে খুশি করার জন্য এক ভুয়া গ্রাম তৈরি করেছিলেন। গবেষকরা ‘পটেমকিনস’ ও ‘হ্যালুসিনেশন’ এর মধ্যে পার্থক্য দেখাতে গিয়ে বলেন পটেমকিন হল এমন ধারণা যেখানে এআই মডেলের ত্রুটি এবং ভুল ভবিষ্যৎবাণী বর্ণনা করতে ব্যবহার করা হয়।
কম্পিউটার বিজ্ঞানী মেরিনা ম্যানকোরিডিস, বেক উইকস, কিয়ন ভাফা ও সেন্দিল মুল্লাইনাথন ‘পটেমকিন আন্ডারস্ট্যান্ডিং’ বলতে এমন একটি অবস্থা বুঝিয়েছেন যেখানে কোনো এআই মডেল সংশ্লিষ্ট বিষয়গুলো না বুঝেই ‘বেঞ্চমার্ক টেস্ট’-এ সফল হয়।
“হ্যালুসিনেশন যেমন মিথ্যা তথ্য তৈরি করে, তেমনি পটেমকিন তৈরি করে মিথ্যা ধারণাগত সামঞ্জস্য”, প্রকাশিত না হওয়া ‘পটেমকিন আন্ডারস্ট্যান্ডিং ইন লার্জ ল্যাঙ্গুয়েজ মডেল’ গবেষণাপত্রটিতে লেখকরা বিষয়টিকে এভাবেই ব্যাখ্যা করেন।
হার্ভার্ড বিশ্ববিদ্যালয়ের পোস্ট ডক্টরাল ফেলো ও গবেষণাপত্রটির অন্যতম সহ-লেখক কিয়ন ভাফা ব্রিটিশ প্রযুক্তি সাইট রেজিস্টারকে বলেন, “পটেমকিন আন্ডারস্ট্যান্ডিং শব্দটি এআই মডেলগুলোর মানুষের মত উত্তর দেওয়া এড়ানোর একটি ইচ্ছাকৃত প্রচেষ্টা বলা যায়।”
এআইয়ের ব্যর্থতাটি সম্পর্কে গবেষণাপত্রটিতে একটি উদাহরণে দেখান হয় ওপেনএআইয়ের চ্যাটজিপিটিকে কবিতার ‘কখকখ’ ছন্দ সম্পর্কে জিজ্ঞেস করলে সহজ ও সঠিক উত্তর আসে যে, প্রথম ও তৃতীয় লাইনে ছন্দের মিল থাকবে, আবার দ্বিতীয় ও চতুর্থ লাইনে মিল থাকবে।
তবে যখন চ্যাটজিপিটিকে বলা হয় ‘কখকখ’ ছন্দ ব্যবহার করে একটি কবিতা লিখে দাও তখন এটি এমন এক কবিতা দেয় যার ছন্দ মেলে না। সোজা কথায় বলতে গেলে এআই মডেলটিকে যখন ‘কখকখ’ ছন্দ সম্পর্কে জিজ্ঞেস করা হল তখন এটি উত্তর দিতে পারলেও যখন এটি ব্যবহার করে কিছু করতে বলা হলো তখন আর পারেনি।
সিকিউরিটি ফার্ম সকেটের সারাহ গুডিং বলেছেন, “যদি লার্জ ল্যাঙ্গুয়েজ মডেলগুলো না বুঝেই সঠিক উত্তর দেয় তাহলে বেঞ্চমার্ক টেস্ট পাশ করাটা বিভ্রান্তিকর।”
গবেষকরা পটেমকিনের প্রভাব মূল্যায়নের জন্য একটি নিজস্ব মানদণ্ড তৈরি করেছেন, কারণ, প্রচলিত বেঞ্চমার্ক দিয়ে এআই কোম্পানিগুলো নিজেদের সুবিধামত ফলাফল দেখায়। তাদের গবেষণায় দেখা গেছে, এই ধরনের ভুয়া ধারণা প্রায় সব পরিক্ষীত মডেলেই রয়েছে।
গবেষণায় ব্যবহার করা মডেলগুলো হলো: লামা ৩.৩, জিপিটি ৪.ও, জেমিনাই ২.০, ক্লড ৩.৫, ডিপসিক ভি৩, ডিপসিক-আর১ কুইন২-ভিএল।
গবেষণার একটি বিশেষ পরীক্ষা কেন্দ্রীভূত ছিল সাহিত্যিক কৌশল, গেইম থিওরি এবং মনস্তাত্ত্বিক পক্ষপাতদুষ্টতার ওপর। এই পরীক্ষায় দেখা গেছে, মডেলগুলো বেশিরভাগ সময় প্রায় ৯৪ দশমিক দুই শতাংশ ক্ষেত্রে বিভিন্ন ধারণা সঠিকভাবে শনাক্ত করতে পারে। কিন্তু যখন তাদের বলা হয় কোনো নির্দিষ্ট ধারণার উদাহরণকে শ্রেণিবদ্ধ করতে, তখন তারা গড়ে ৫৫ শতাংশ সময় ব্যর্থ হয়। তারা নতুন উদাহরণ তৈরি করতে গিয়ে ৪০ শতাংশ সময় ভুল করে এবং কোনো উদাহরণ এডিট করার সময়ও ৪০ শতাংশ ক্ষেত্রে ব্যর্থ হয়।
গবেষক ভাফা এ বিষয়ে বলেন, “পটেমকিন আন্ডারস্ট্যান্ডিংয়ের মানে হল, মানুষের ক্ষেত্রে যে ধরনের আচরণকে প্রকৃত বোঝাপড়ার প্রমাণ হিসেবে ধরা হয়, তা লার্জ ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে সেই অর্থে বোঝাপড়ার নির্দেশ করে না।
“আমাদের হয়ত লার্জ ল্যাঙ্গুয়েজ মডেলেকে মূল্যায়নের জন্য মানুষের জন্য তৈরি প্রশ্ন ব্যবহার করা বাদ দিয়ে নতুন ধরনের মূল্যায়ন পদ্ধতি তৈরি করতে হবে, অথবা এমন কোনো উপায় খুঁজে বের করতে হবে যাতে লার্জ ল্যাঙ্গুয়েজ মডেলের ভেতর থেকে এই ভুয়া আচরণ মুছে ফেলা যায়।”
সূত্র: বিডি নিউজ ২৪