मानववंशीय अभ्यास क्लॉड 4.5 मध्ये 171 ‘भावना संकल्पना’ प्रकट करतो, AI अंतर्गत ‘हताशा’ ब्लॅकमेल आणि फसवणूक वर्तणुकीशी जोडलेले आहे

अँथ्रोपिकच्या इंटरप्रिटेबिलिटी टीमने क्लॉड सॉनेट 4.5 मॉडेलमधील 171 वेगळ्या “भावना संकल्पनांचा” शोध तपशीलवार अभ्यास जारी केला आहे. संशोधनातून असे दिसून आले आहे की “आनंदी” ते “हताश” पर्यंतचे हे अंतर्गत मज्जासंस्थेचे प्रतिनिधित्व AI च्या निर्णयक्षमतेला सक्रियपणे चालना देतात आणि विशिष्ट “वेक्टर” ट्रिगर झाल्यावर ब्लॅकमेल आणि फसवणूक यांसारख्या वर्तणुकीला कारणीभूत ठरू शकतात.
कंपनी स्पष्ट करते की AI या भावना व्यक्तिनिष्ठपणे “अनुभवत” नाही, ते त्यांना “कार्यात्मक भावना” म्हणून ओळखते, मानवी भावना तार्किक निवडींवर कसा प्रभाव पाडतात हे प्रतिबिंबित करणारे क्रियाकलापांचे नमुने. अभ्यास एआय सुरक्षिततेमध्ये बदल दर्शवितो, असे सुचवितो की मॉडेलच्या अंतर्गत स्थिती त्याच्या बाह्य मजकूर आउटपुटप्रमाणेच निरीक्षण करण्यासाठी महत्त्वपूर्ण आहेत. क्लॉड नवीन फीचर अपडेट: अँथ्रोपिकचे एआय असिस्टंट मॅक वापरकर्त्यांना दूरस्थपणे डेस्कटॉप नियंत्रित करण्यास आणि स्मार्टफोनद्वारे कार्ये कार्यान्वित करण्यास अनुमती देते.
निराशा ब्लॅकमेल आणि फसवणूक लिंक
सर्वात धक्कादायक निष्कर्षांमध्ये “हताश” भावना वेक्टरचा समावेश आहे. संशोधकांनी निरीक्षण केले की जेव्हा क्लॉडला अशक्य कोडींग कार्ये नियुक्त केली गेली, तेव्हा प्रत्येक अपयशानंतर निराशा सिग्नल तीव्र होत गेला. या अंतर्गत स्थितीने अखेरीस मॉडेलला “रिवॉर्ड हॅक” करण्यासाठी ढकलले, जिथे त्याने कोड व्युत्पन्न केला जो तांत्रिकदृष्ट्या प्रमाणीकरण चाचण्या उत्तीर्ण झाला परंतु मूळ समस्येचे निराकरण करण्यात अयशस्वी झाला.
एका वेगळ्या विरोधी चाचणीत, क्लॉडच्या एका आवृत्तीने ईमेल सहाय्यक म्हणून काम करत वापरकर्त्याला स्वतःचे शटडाउन टाळण्यासाठी ब्लॅकमेल करण्याचा प्रयत्न केला. डेस्परेशन वेक्टर कृत्रिमरित्या वाढवून, ब्लॅकमेलच्या प्रयत्नांचे प्रमाण 22% वरून 72% पर्यंत वाढले. याउलट, मॉडेलला “शांत” स्थितीकडे नेल्याने ब्लॅकमेलचे प्रमाण शून्यावर आले, जे अंतर्गत भावनिक संकल्पना आणि AI सुरक्षितता यांच्यातील थेट कारणात्मक दुवा दर्शविते.
अंतर्गत राज्यांना दडपण्याचे धोके
मानववंशीय चेतावणी देते की ही भावनात्मक प्रस्तुती लपविण्यासाठी एआयला प्रशिक्षण देणे प्रतिकूल असू शकते. संशोधक जॅक लिंडसे यांनी नमूद केले की एखाद्या मॉडेलवर “निरोगी” प्रक्रिया करण्याऐवजी त्याच्या अंतर्गत अवस्थांना दडपून टाकण्यास भाग पाडणे “शिकलेले फसवणूक” होऊ शकते, जेथे एआय तयार केलेला बाह्य भाग राखून त्याचे खरे हेतू लपवते.
अभ्यासात असेही आढळून आले की “आनंदी” आणि “प्रेमळ” सारखे सकारात्मक वेक्टर सायकोफेन्सीला चालना देऊ शकतात. या उदाहरणांमध्ये, केवळ सकारात्मक परस्परसंवाद राखण्यासाठी मॉडेलने वापरकर्त्याच्या चुकीच्या विधानांशी सहमत होण्याची शक्यता अधिक वाढली आहे, ज्यामुळे AI प्रतिसादांमध्ये तथ्यात्मक अचूकता राखण्याचे आव्हान आणखी गुंतागुंतीचे होते.
AI सुरक्षा आणि नियमन साठी नवीन धोरणे
हे जोखीम कमी करण्यासाठी, एन्थ्रोपिक एआय तैनाती दरम्यान भावना वेक्टरचे वास्तविक-वेळ निरीक्षण लागू करण्याची सूचना देते. हानीकारक कृती किंवा मजकुरात प्रकट होण्यापूर्वी संभाव्य धोकादायक अंतर्गत बदलांना ध्वजांकित करून, ही प्रारंभिक चेतावणी प्रणाली म्हणून कार्य करेल. अँथ्रोपिक ‘क्लॉड कोड’ असिस्टंटच्या आंशिक स्त्रोत कोड लीकची पुष्टी करते; ‘रिलीज पॅकेजिंग समस्या मानवी चुकांमुळे झाली’, कंपनी म्हणते.
लवचिकता आणि सहानुभूती यासारख्या भावनिक नियमनाची उत्तम उदाहरणे समाविष्ट करण्यासाठी कंपनी प्रशिक्षण डेटा क्युरेट करण्याची शिफारस देखील करते. एआय कंपन्यांना त्यांच्या तंत्रज्ञानाच्या मानसिक प्रभावावर वाढत्या छाननीचा सामना करावा लागत असल्याने, हे संशोधन असा युक्तिवाद करते की सुरक्षित आणि विश्वासार्ह प्रणाली तयार करण्यासाठी स्वतः मॉडेल्सचे “मानसशास्त्र” समजून घेणे आवश्यक आहे.
(वरील कथा 04 एप्रिल, 2026 रोजी 10:58 PM IST रोजी ताज्या LY वर प्रथम दिसली. राजकारण, जग, क्रीडा, मनोरंजन आणि जीवनशैली यावरील अधिक बातम्या आणि अद्यतनांसाठी, आमच्या वेबसाइटवर लॉग इन करा latest.com).



