Life Style

भारत बातम्या | आयआयटी गुवाहाटीने एआय इम्पॅक्ट समिटमध्ये विकिपीडियाच्या नावातील त्रुटी शोधण्यासाठी, दुरुस्त करण्याची पद्धत दाखवली

गुवाहाटी (आसाम) [India]20 फेब्रुवारी (ANI): भारतीय तंत्रज्ञान संस्था गुवाहाटी संशोधकांनी विकिपीडियामध्ये पृष्ठभाग नाव त्रुटी (SNE) ओळखण्यासाठी आणि दुरुस्त करण्यासाठी एक बहुभाषिक आणि स्केलेबल पद्धत विकसित केली आहे, ज्यामुळे मानवी वापरकर्ते आणि कृत्रिम बुद्धिमत्ता प्रणाली दोन्हीसाठी माहितीची विश्वासार्हता सुधारण्यास मदत होते.

विकिपीडिया हा एक मुक्त, बहुभाषिक ऑनलाइन विश्वकोश आहे जो स्वयंसेवकांच्या जागतिक समुदायाने खुल्या सहकार्याने तयार केला आणि राखला आहे.

तसेच वाचा | गुरुग्राम हॉरर: शेजाऱ्याने केला बलात्कार, ३ वर्षाच्या मुलीची हत्या, मृतदेह खड्ड्यात पुरला.

एका प्रेस स्टेटमेंटमध्ये, IIT गुवाहाटीने नमूद केले आहे की पृष्ठभागाचे नाव हे विकिपीडिया लेखांमध्ये वापरल्या जाणाऱ्या मजकूराचा उल्लेख किंवा दुसऱ्या घटकाशी लिंक करण्यासाठी संदर्भित करते.

“सर्फेस नेम एरर (SNE) जेव्हा हा मजकूर चुकीचा असतो तेव्हा उद्भवते. उदाहरणार्थ, पॅरिसच्या पृष्ठाशी लिंक करण्यासाठी “Parise” सारखा चुकीचा शब्द वापरणे. IIT गुवाहाटी संशोधन कार्यसंघाने केलेल्या अभ्यासात असे आढळून आले की विकिपीडियामध्ये उल्लेख केलेल्या सर्व घटकांपैकी सुमारे 3% ते 6% मध्ये पृष्ठभागाच्या नावाच्या त्रुटी आहेत, असे म्हटले आहे, परंतु या त्रुटींमध्ये लक्षणीय परिणाम होऊ शकतात असे म्हटले आहे. विधान.

तसेच वाचा | नमो भारत रॅपिड रेल ट्रायल रन दिल्लीत यशस्वीपणे पार पडली; पंतप्रधान नरेंद्र मोदी सेवेचे उद्घाटन करणार (व्हिडिओ पहा).

मानवी वापरकर्त्यांसाठी, पृष्ठभागाचे चुकीचे नाव प्रदान केलेल्या माहितीची विश्वासार्हता आणि विश्वासार्हता कमी करू शकते.

त्याचप्रमाणे, अनेक मशीन लर्निंग आणि डीप लर्निंग मॉडेल्स विकिपीडियाचा वापर कोर डेटासेट म्हणून करतात. पृष्ठभागाच्या नावांमधील अशा त्रुटी AI कार्ये आणि मॉडेल कार्यक्षमतेवर नकारात्मक परिणाम करू शकतात.

या आव्हानाला सामोरे जाण्यासाठी, संगणक विज्ञान आणि अभियांत्रिकी विभागाचे सहयोगी प्राध्यापक अमित आवेकर, तत्कालीन एम.टेक विद्यार्थी अनुज खरे (2022 ची बॅच) यांनी गणितीय वारंवारता नमुने वापरणारी एक पद्धत तयार केली, ज्यामुळे ती भाषांमध्ये जुळवून घेता येईल.

पहिल्या पायरीमध्ये विकिपीडिया स्कॅन करणे आणि प्रत्येक दुव्याला चतुर्भुज मध्ये रूपांतरित करणे ज्यामध्ये लिंक दिसते ते पान, ते पान, लिंकमध्ये वापरलेले पृष्ठभागाचे नाव आणि आजूबाजूचा मजकूर संदर्भ यांचा समावेश होतो.

पुढील चरणात, विकसित पद्धतीने पृष्ठभागाच्या नावाचे पुनरावलोकन केले आणि ते किमान 10 वेळा दिसले तरच ते योग्य मानले गेले आणि एका विशिष्ट पृष्ठाकडे निर्देश करणाऱ्या सर्व दुव्यांपैकी किमान 5% ती होती.

या निकषांची पूर्तता न करणाऱ्या पृष्ठभागाची नावे संभाव्य त्रुटी म्हणून ध्वजांकित करण्यात आली.

अंतिम टप्प्यात, सापडलेल्या त्रुटींचे वर्गीकरण “टायपिंग चुका” मध्ये केले आहे, जसे की “गुवाहाटी” ऐवजी “गवाहाटी” किंवा “एंटिटी स्पॅन एरर”, जेथे अतिरिक्त किंवा चुकीचे शब्द चुकून लिंकमध्ये समाविष्ट केले आहेत.

संशोधकांनी विकसित पद्धतीची इंग्रजी, संस्कृत, जर्मन, इटालियन, उर्दू, हिंदी, मराठी आणि गुजरातीसह आठ भाषांवर चाचणी केली आणि अचूक परिणाम आढळले.

विकसित पद्धतीच्या रिअल-वर्ल्ड ॲप्लिकेशनबद्दल बोलताना, आवेकर म्हणाले, “हे काम आम्हाला दाखवते की, मानवी वापरासाठी आणि AI मॉडेल्सचे प्रशिक्षण या दोन्हीसाठी आम्ही वेबवरील डेटावर आंधळेपणाने विश्वास ठेवू नये. चांगला डेटा ही कोणत्याही चांगल्या AI मॉडेलची आणि डाउनस्ट्रीम ॲप्लिकेशनची सुरुवात असते.”

विकसित पद्धतीचे प्रमाणीकरण करण्यासाठी, संशोधन कार्यसंघाने 2018 आणि 2022 मधील इंग्रजी विकिपीडियाच्या स्नॅपशॉट्सची तुलना केली आणि असे आढळले की या पद्धतीद्वारे अंदाज लावलेल्या सुमारे 30% त्रुटी विकिपीडियावर चार वर्षांत दुरुस्त केल्या गेल्या आहेत, ज्यामुळे त्याच्या अचूकतेची पुष्टी होते.

विकिपीडियाची देखभाल जगभरातील स्वयंसेवकांद्वारे केली जाते आणि विकसित पद्धत संपादकांना लपविलेल्या टायपो आणि लिंकिंग त्रुटी ओळखण्यात मदत करू शकते ज्या अन्यथा वर्षानुवर्षे कोणाच्याही लक्षात न आल्यास.

या पद्धतीच्या अचूकतेची पुष्टी करण्यासाठी, हे उल्लेखनीय आहे की विकिपीडिया समुदायाने संशोधकांनी सुचवलेल्या मॅन्युअल सुधारणांपैकी 99% पेक्षा जास्त स्वीकारल्या आहेत.

विकिपीडिया समुदायाद्वारे व्यावहारिक प्रमाणीकरणासह स्केलेबल डेटा प्रोसेसिंग एकत्र करून, IIT गुवाहाटी टीमने डिजिटल ज्ञान प्रणाली मजबूत करण्यासाठी एक प्रभावी दृष्टीकोन प्रदर्शित केला आहे. (ANI)

(वरील कथा एएनआयच्या कर्मचाऱ्यांनी सत्यापित आणि लिहिली आहे, एएनआय ही भारत, दक्षिण आशिया आणि जगभरातील 100 हून अधिक ब्युरोसह दक्षिण आशियातील आघाडीची मल्टीमीडिया न्यूज एजन्सी आहे. ANI भारत आणि जगभरातील राजकारण आणि चालू घडामोडी, क्रीडा, आरोग्य, फिटनेस, मनोरंजन आणि बातम्यांवरील ताज्या बातम्या आणते. वरील मते नवीनतम पोस्टमध्ये दिसत नाहीत.




Source link

Related Articles

प्रतिक्रिया व्यक्त करा

आपला ई-मेल अड्रेस प्रकाशित केला जाणार नाही. आवश्यक फील्डस् * मार्क केले आहेत

Back to top button