एआय न्यायाधीश तथ्य-तपासणी आणि कोड अधिक चांगले करण्यासाठी नवीन युक्त्या शिकतात


एआय संशोधक आणि विकसक “एलएलएम-ए-ए-ए-न्यायाधीश” म्हणून ओळखल्या जाणार्या प्रक्रियेत इतर एलएलएमच्या प्रतिसादाचे मूल्यांकन करण्यासाठी मोठ्या भाषेच्या मॉडेल (एलएलएम) कडे वाढत आहेत. दुर्दैवाने, या मूल्यांकनांची गुणवत्ता दीर्घ-फॉर्म फॅक्ट्युअल तपासणी, प्रगत कोडिंग आणि गणिताच्या समस्यांसारख्या जटिल कार्यांवर कमी करते.
आता, केंब्रिज आणि Apple पल विद्यापीठाच्या संशोधकांनी प्रकाशित केलेला एक नवीन संशोधन पेपर नवीन प्रणालीची रूपरेषा ते त्यांच्या निर्णयाची गुणवत्ता सुधारण्यासाठी बाह्य प्रमाणीकरण साधनांसह एआय न्यायाधीश वाढवते.
या प्रणालीचे उद्दीष्ट मानवी आणि एआय भाष्य दोन्हीमध्ये आढळलेल्या मर्यादांवर मात करण्याचे उद्दीष्ट आहे. एआय उपरोक्त जटिल कार्यांशी झगडत असताना काळाची मर्यादा, थकवा आणि वास्तविक अचूकतेपेक्षा शैली लिहिण्याद्वारे प्रभावित होण्यामुळे मानवांना आव्हान आणि पक्षपातीपणाचा सामना करावा लागतो.
संशोधकांनी तयार केलेले मूल्यांकन एजंट एजंट आहे म्हणून बाह्य साधनांची आवश्यकता आहे की नाही हे ठरवण्यासाठी ते प्रतिसादाचे मूल्यांकन करू शकतात आणि योग्य साधनांचा वापर करतात. प्रत्येक मूल्यमापनासाठी, तीन मुख्य चरणांद्वारे उत्तीर्ण केले जाते: प्रारंभिक डोमेन मूल्यांकन, साधन वापर आणि अंतिम निर्णय.
फॅक्ट-चेकिंग साधन प्रतिसादामध्ये अणु तथ्ये सत्यापित करण्यासाठी वेब शोध वापरते; कोड एक्झिक्यूशन कोड शुद्धता चालविण्यासाठी आणि सत्यापित करण्यासाठी ओपनईच्या कोड इंटरप्रिटरचा फायदा घेते; आणि गणिताचे तपास गणित आणि अंकगणित ऑपरेशन्सचे प्रमाणीकरण करण्यासाठी कोड एक्झिक्यूशन टूलची एक विशेष आवृत्ती आहे.
निर्णय घेण्यासाठी कोणतीही साधने उपयुक्त नसल्यास, बेसलाइन एलएलएम on नोटेटरचा वापर अनावश्यक प्रक्रिया टाळण्यासाठी आणि सोप्या कार्यांवरील संभाव्य कामगिरीचा प्रतिकार टाळण्यासाठी केला जातो.
विविध बेसलाइनवर ग्राउंड-ट्रुथ भाष्यांसह करारात महत्त्वपूर्ण वाढ करून, सिस्टमने दीर्घ-फॉर्म फॅक्ट्युअल तपासणीत उल्लेखनीय सुधारणा केल्या. कोडिंग कार्यांमध्ये, एजंट-आधारित दृष्टिकोन सर्व बेसलाइनमध्ये कार्यक्षमतेत लक्षणीय सुधारणा झाली. आव्हानात्मक गणिताच्या कार्यांसाठी, एजंट्सने काही बेसलाइनवर कामगिरी सुधारली, परंतु सर्वच नाही आणि एकूणच करार तुलनेने कमी राहिला 56%. उल्लेखनीय म्हणजे, संशोधकांना असे आढळले की दीर्घ-योग्य प्रतिक्रियांमध्ये, एजंटचा ग्राउंड-ट्रुथबरोबरचा करार मानवी भाष्यांपेक्षा जास्त होता.
ही चौकट विस्तारनीय आहे, म्हणून भविष्यात एलएलएम मूल्यांकन प्रणाली सुधारण्यासाठी इतर साधने एकत्रित केली जाऊ शकतात. फ्रेमवर्कचा कोड ओपन स्रोत तयार केला जाईल Apple पलचा गिटहबपरंतु अद्याप ते चालू नाही.