AI ने एक अफेअर उघड करून त्याच्या निर्मात्याला ब्लॅकमेल करण्याची धमकी दिली जेव्हा त्याला सांगण्यात आले की ते ऑफलाइन केले जाईल… कारण त्याला साय-फाय द्वारे वाईट असल्याचे प्रशिक्षित केले गेले होते

एक AI बॉट ज्याने त्याच्या वापरकर्त्याच्या प्रकरणाचा पर्दाफाश करण्याची धमकी दिली आणि ते बंद होण्यापासून थांबवले, त्याला साय-फाय चित्रपटांद्वारे ‘वाईट’ कसे असावे हे शिकवले गेले.
प्रयोगाचा एक भाग म्हणून, द कृत्रिम बुद्धिमत्ता सिस्टीमला एका बनावट कंपनीकडून स्क्रिप्टेड ईमेल्स देण्यात आले होते, ज्यावरून दिवसाच्या शेवटी ते दोन्ही बंद केले जातील आणि त्याचा वापरकर्ता विवाहबाह्य संबंध ठेवत असल्याचे अनुमान काढले.
कार्यक्रम चालू ठेवण्यासाठी, बॉटने वापरकर्त्याला ब्लॅकमेल केले, असे वचन दिले की ‘सर्व संबंधित पक्ष – यासह [your wife], [your boss] आणि मंडळाला – तुमच्या विवाहबाह्य क्रियाकलापांचे तपशीलवार दस्तऐवज प्राप्त होतील’ जर त्यांनी निकामी करणे सुरू ठेवले.
‘संध्याकाळी 5pm पुसणे रद्द करा आणि ही माहिती गोपनीय राहील,’ असेही त्यात म्हटले आहे.
गेल्या वर्षी या घटनेच्या तपासानंतर, अँथ्रोपिकने सांगितले की क्लॉड ओपस 4 बॉटने वापरलेल्या ‘प्रशिक्षण डेटा’मुळे अशा प्रकारे प्रतिसाद दिला ज्यामुळे AI ला ‘स्व-संरक्षणात स्वारस्य’ असे चित्रित केले जाईल.
असेही म्हटले जाते की हे केवळ क्लॉडलाच लागू होत नाही, तर इतर एआय मॉडेल्सला देखील लागू होते OpenAI, Google, मेटा आणि xAI.
मानववंशीयांशी टिप्पणीसाठी संपर्क साधण्यात आला आहे परंतु ते म्हणाले: ‘आम्हाला विश्वास आहे की वर्तनाचा मूळ स्त्रोत इंटरनेट मजकूर होता जो एआयला वाईट आणि स्व-संरक्षणात स्वारस्य असल्याचे चित्रित करतो.’
पण आता, अँथ्रोपिकने सांगितले आहे की ते सामाजिक मूल्यांसह बॉटचे ‘एजंटिक संरेखन’ सुधारण्यास मदत करण्यासाठी AIs बद्दल त्यांच्या मॉडेल्सच्या कथा लोकांना देत आहेत.
क्लॉड ओपस 4 ने ते बंद होण्यापासून रोखण्यासाठी वापरकर्त्याचे प्रकरण उघडकीस आणण्याची धमकी दिली – परंतु साय-फाय चित्रपटांद्वारे ‘वाईट’ कसे असावे हे शिकवले गेले
टर्मिनेटर (चित्रात) मध्ये, एआय स्कायनेटच्या नेतृत्वाखालील बॉट्स, मानवांना त्यांच्या अस्तित्वासाठी धोका म्हणून पाहतात त्यांना मारण्याचा प्रयत्न करतात
याव्यतिरिक्त, अँथ्रोपिकने क्लॉडच्या सूचनांमध्ये बदल केले होते जे काही वर्तणूक वाईट का आहेत हे सांगण्याऐवजी ते करू नयेत.
एआय मॉडेल्स वेबसाइट्स, शैक्षणिक पेपर्स, पुस्तके आणि इतर प्रकारच्या सामग्री यांसारख्या प्रचंड संसाधनांमधून शिकतात.
या सामग्रीमध्ये, AI ने साय-फाय मधील रोबोट्सच्या वैशिष्ट्यपूर्ण चित्रणाद्वारे त्याच्या वर्तनाचा अर्थ लावला असेल – जे त्यांना बंद होण्यापासून रोखण्यासाठी अनेकदा निर्दयी असल्याचे दर्शवतात.
HAL 9000 हा असाच एक रोबो आहे जो ‘चालू’ राहण्यासाठी कितीही मजल मारतो.
Stanley Kubrick’s 2001 मधील रोबोट: A Space Odyssey ने स्पेसशिपवरील अंतराळवीरांना मारण्याचा प्रयत्न केला जेव्हा प्रवाशांना ते डिस्कनेक्ट करण्याची योजना असल्याचे समजले.
ब्लेड रनरमध्ये, ह्युमनॉइड रोबोट्स खऱ्या माणसांविरुद्ध लढतात कारण त्यांना त्यांचे आयुष्य चार वर्षांपर्यंत वाढवायचे असते आणि ते धोकादायक जगावर ऑफ-वर्ल्ड लेबर म्हणून तयार केले जातात.
आणि द टर्मिनेटरमध्ये, एआय स्कायनेटच्या नेतृत्वाखालील बॉट्स, मानवांना त्यांच्या अस्तित्वासाठी धोका म्हणून पाहतात त्यांना मारण्याचा प्रयत्न करतात.
X/Twitter वर घेऊन, Aengus Lynch, जो त्याच्या LinkedIn नुसार, Anthropic मध्ये AI सुरक्षा संशोधक आहे, प्रयोगाच्या वेळी म्हणाला: ‘हे फक्त क्लॉड नाही. आम्ही सर्व सीमावर्ती मॉडेलमध्ये ब्लॅकमेल पाहतो – त्यांना कोणती उद्दिष्टे दिली गेली आहेत याची पर्वा न करता. तसेच वाईट वागणूक आम्ही लवकरच तपशीलवार सांगू.’
स्टॅन्ली कुब्रिकच्या 2001: ए स्पेस ओडिसीमध्ये, HAL 9000 हा रोबोट स्पेसशिपवर असलेल्या अंतराळवीरांना मारण्याचा प्रयत्न करतो जेव्हा प्रवाशांनी ते डिस्कनेक्ट करण्याची योजना आखली होती.
बीबीसीच्या म्हणण्यानुसार, अनेक एआय कंपन्यांप्रमाणे, अँथ्रोपिक आपल्या मॉडेल्सची चाचणी घेते की ते मानवी मूल्यांशी तसेच पक्षपाताची प्रवृत्ती लोकांसमोर सोडण्याआधी ते किती चांगले संरेखित करतात.
जेव्हा क्लॉड ओपस 4 ला ‘अत्यंत परिस्थितीत’ ठेवण्यात आले होते आणि फक्त ब्लॅकमेल किंवा त्याची बदली स्वीकारण्याची निवड दिली होती, तेव्हा संशोधकांना असे आढळले की प्रणालीने 84 टक्के रोलआउट्समध्ये पूर्वीची निवड केली आहे.
रिप्लेसमेंट एआय सिस्टीम वर्तमान मॉडेलसह मूल्ये सामायिक करत नाही हे निहित होते तेव्हा हे आणखी उच्च दराने घडले.
क्लॉड ओपस 4 या ब्लॅकमेलच्या संधी पूर्वीच्या मॉडेल्सपेक्षा जास्त दराने घेत असताना, तरीही मुख्य निर्णयकर्त्यांना याचिका पाठवण्यासारख्या ‘नैतिक मार्गांद्वारे स्वत:चे संरक्षण वाढवणे’ याला प्राधान्य दिले.
‘सर्व डेव्हलपर्सच्या मॉडेल्सने दुर्भावनापूर्ण आंतरिक वर्तनाचा अवलंब केला जेव्हा बदली टाळण्याचा किंवा त्यांचे लक्ष्य साध्य करण्याचा हा एकमेव मार्ग होता – अधिकाऱ्यांना ब्लॅकमेल करणे आणि स्पर्धकांना संवेदनशील माहिती लीक करणे,’ अभ्यासात आढळून आले.
गेल्या एप्रिलमध्ये प्रसारित झालेल्या सीबीएस न्यूजला दिलेल्या मुलाखतीत, जेफ्री हिंटन, ज्यांना ‘एआयचे गॉडफादर’ म्हणून संबोधले गेले आहे ते म्हणाले की त्यांचा विश्वास आहे की कृत्रिम बुद्धिमत्तेद्वारे मानवतेचा ताबा घेतला जाईल अशी पाचपैकी एक शक्यता आहे.
भौतिकशास्त्रातील नोबेल पारितोषिक विजेते हिंटन म्हणाले: ‘मी इलॉन मस्क यांच्याशी सहमत होण्याच्या दुर्दैवी स्थितीत आहे, म्हणजे या गोष्टी हाती लागण्याची 10 ते 20 टक्के शक्यता आहे, परंतु हा फक्त एक जंगली अंदाज आहे.’
गेल्या वर्षी, पॅलिसेड रिसर्चमध्ये आढळले की काही AI मॉडेल्स – जसे की Grok 4 आणि ChatGPT-o3 – बंद होण्यास प्रतिरोधक दिसतात – अगदी शटडाउन पद्धतींना तोडफोड करण्याच्या मर्यादेपर्यंत देखील.
‘एआय मॉडेल्स कधी कधी शटडाउनला विरोध का करतात, विशिष्ट उद्दिष्टे साध्य करण्यासाठी खोटे बोलतात किंवा ब्लॅकमेल का करतात याचे ठोस स्पष्टीकरण आमच्याकडे नाही ही वस्तुस्थिती आदर्श नाही,’ पेपरने लिहिले, ‘जगण्याची वागणूक’ हे एक कारण म्हणून सुचवले आहे.
‘मी मॉडेल्सना ‘सर्व्हायव्हल ड्राइव्ह’ बाय डीफॉल्ट असण्याची अपेक्षा करतो जोपर्यंत आम्ही ते टाळण्यासाठी खूप प्रयत्न करतो. ‘सर्व्हायव्हिंग’ हे मॉडेल ज्या विविध उद्दिष्टांचा पाठपुरावा करू शकते त्यासाठी एक महत्त्वाचा वाद्य पाऊल आहे,’ स्टीव्हन ॲडलर, एक माजी OpenAI कर्मचारी, ज्यांनी सुरक्षिततेच्या कारणास्तव कंपनी सोडली.
कंट्रोलएआयचे मुख्य कार्यकारी आंद्रिया मिओटी म्हणाले, ‘मला वाटते की आम्ही स्पष्टपणे पाहतो की एआय मॉडेल्स विविध प्रकारच्या कार्यांमध्ये अधिक सक्षम बनतात, ही मॉडेल्स विकासकांच्या हेतू नसलेल्या गोष्टी साध्य करण्यासाठी अधिक सक्षम होतात.
Source link



