कॅरेक्टर.एआय रिअल-टाइम, “फेसटाइम-स्टाईल” व्हिडिओ जनरेशनसाठी टॉकिंग मचिनचे अनावरण करते


कॅरेक्टर.एआय सामायिक केले आहे काही संशोधन हे जनरेटिव्ह व्हिडिओवर करत आहे. कंपनीने टॉकिंगमाइन्स नावाचे एक नवीन ऑटोरेग्रेसिव्ह डिफ्यूजन मॉडेल विकसित केले आहे जे फक्त एक प्रतिमा आणि व्हॉईस सिग्नलमधून एआय वर्णांचा रिअल-टाइम, ऑडिओ-चालित व्हिडिओ व्युत्पन्न करण्यास सक्षम आहे. यासह, कंपनी एआय वर्णांसह फेसटाइम-स्टाईल व्हिज्युअल परस्परसंवादाच्या जवळ येत आहे.
हे समजून घेणे महत्वाचे आहे की या क्षणी ते अद्याप संशोधन आहे. एक आहे संशोधन पेपर आणि व्हिडिओ डेमो, परंतु आपण अद्याप ते कॅरेक्टर.एआय अॅपमध्ये वापरू शकत नाही.
जर हे कधीही कॅरेक्टर.एआय अॅपवर फिल्टर करत असेल तर ते वापरकर्त्यांना एआयबरोबर अधिक विसर्जित रोलप्लेमध्ये व्यस्त राहू शकेल, परस्पर कथाकथनात व्यस्त राहू शकेल आणि व्हिज्युअल वर्ल्ड-बिल्डिंगला अनुमती देईल.
नवीन टॉकिंगमाइन्स मॉडेल डिफ्यूजन ट्रान्सफॉर्मर (डीआयटी) तंत्रज्ञान नावाच्या एखाद्या गोष्टीवर तयार केले गेले आहे, जे मूलत: एक कलाकार आहे जो यादृच्छिक आवाजापासून तपशीलवार प्रतिमा तयार करू शकतो, प्रतिमेचे परिपूर्ण होईपर्यंत परिष्कृत करते. काय केले आहे.
त्याचे यश मिळविण्यासाठी, टॉकिंगमाइन्स अनेक मुख्य तंत्रांचा फायदा घेतात, यासह: फ्लो-मॅच डिफ्यूजन, ऑडिओ-चालित क्रॉस लक्ष, विरळ कारण लक्ष आणि असममित ऊर्धपातन.
अधिक नाट्यमय हावभावांना सूक्ष्म चेहरा अभिव्यक्तींसह बर्याच हालचालींवर प्रवाह-जुळणारे प्रसार प्रशिक्षण दिले जाते. हे एआय वर्ण अधिक नैसर्गिकरित्या हलविण्यास मदत करते. रोमांचक कार्य ऑडिओ-चालित क्रॉस लक्षाद्वारे वितरित केले जाते, जे एआयला फक्त शब्द ऐकू देते, परंतु ऑडिओमध्ये लय, विराम आणि प्रतिबिंब देखील समजू शकते आणि नंतर तोंडाच्या हालचाली, डोके नोड्स आणि डोळ्याच्या डोळ्यांत भाषांतर करतात.
विरळ कारणास्तव लक्ष देऊन, कॅरेक्टर.एआय व्हिडिओच्या फ्रेमवर अधिक खर्च-कार्यक्षम पद्धतीने प्रक्रिया करू शकते आणि असममित डिस्टिलेशनसह, व्हिडिओ रिअल-टाइममध्ये तयार केले जाऊ शकते जेणेकरून ते फेसटाइम कॉलसारखे दिसते.
कॅरेक्टर.एआय ठामपणे सांगते की हे संशोधन प्रगती केवळ चेहर्यावरील अॅनिमेशनबद्दल नाही. असे म्हटले आहे की हे परस्परसंवादी ऑडिओ व्हिज्युअल एआय वर्णांच्या दिशेने एक पाऊल आहे जे आपण रिअल टाइममध्ये संवाद साधू शकता. मॉडेल फोटोरॅलिस्टिक मानव, ime नाईम आणि 3 डी अवतारांसह विस्तृत शैलींचे समर्थन करते आणि ते नैसर्गिक ऐकण्याच्या आणि बोलण्याच्या टप्प्यांसह प्रवाह सक्षम करते.
हे वैशिष्ट्य अद्याप अॅपसाठी तयार नाही, कॅरेक्टर.एआयने ते अद्याप संशोधनात आहे. जर कंपनीने ते लॉन्च केले तर हे साध्य करणार्या पहिल्या कंपन्यांपैकी एक असेल, जर प्रथम नाही आणि एआय शर्यतीत निश्चितच उल्लेखनीय मैलाचा दगड असेल.



