AI4Bharat ने सादर केला ‘भाषानुवाद’: भारतीय भाषांसाठी सर्वात मोठा भाषिक भाषांतर डेटा

AI4Bharat unveils BhasaAnuvaad: AI4Bharat ने भारतीय भाषांसाठी सर्वात मोठा संभाषण भाषांतर डेटासेट सादर केला आहे. या उपक्रमामुळे भारताच्या प्रचंड मोठ्या भाषिक विविधतेला चांगलाच लाभ होणार आहे. या डेटासेटमध्ये 13 प्रमुख भारतीय भाषांच्या 44,400 तासांच्या ऑडिओचा समावेश आहे.
[gspeech type=button]

AI4Bharat ने भारतीय भाषांसाठी सर्वात मोठा संभाषण भाषांतर डेटासेट सादर केला आहे. या उपक्रमामुळे भारताच्या प्रचंड मोठ्या भाषिक विविधतेला चांगलाच लाभ होणार आहे. या डेटासेटमध्ये 13 प्रमुख भारतीय भाषांच्या 44,400 तासांच्या ऑडिओचा समावेश आहे. हे डेटासेट भारतीय भाषांसमोरील आव्हांनांवर उपाय शोधण्यास मदत करतील. उदाहरणार्थ, एका वाक्यात अनेक भाषांचा वापर आणि बोलीभाषेतील विविधता यामुळे भाषांतर तंत्रज्ञानात महत्त्वपूर्ण सुधारणा होईल.

या डेटासेटमध्ये हिंदी, बंगाली, तामिळ, तेलगु, मल्याळम, कन्नड, गुजराती, मराठी, ओरिया, पंजाबी, उर्दू, आसामी आणि नेपाळी या भाषांचे अनुवाद उपलब्ध असणार आहेत. सरकारी डेटाबेस, इंटरनेट आणि कृत्रिम बुद्धिमत्तेचा वापर अशा विविध स्रोतांकडून हा डेटा गोळा करण्यात आला आहे. जागतिक डेटाबेसमध्ये अनेकदा भारतीय भाषांच्या विविधतेला, बहुआयामाकडे दुर्लक्ष केलं जातं. मात्र AI4Bharat च्या ‘भाषानुवाद’मध्ये भारतीय भाषांच्या वैशिष्ट्यांना सुनिश्चित करत कोडस्विचिंग आणि विविध बोलीभाषांच्या आव्हानांकडे विशेष लक्ष देण्यात आले आहे.

Indic-Spontaneous-Synth: नैसर्गिक भाषांतरासाठी नवीन मॉडेल

AI4Bharat ने एक नवीन कृत्रिम मूल्यांकन संच, ‘Indic-Spontaneous-Synth’ देखील सादर केला आहे. विद्यमान भाषांतर मॉडेल्सच्या नैसर्गिक आणि उत्स्फुर्त संभाषण मर्यादांना ओळखून हे मॉडेल विशेष करून तयार करण्यात आले आहे. फिक्स्ड डेटासेटवर प्रशिक्षित मॉडेल्स नैसर्गिक भाषणाचे भाषांतर करण्यात अयशस्वी ठरतात. त्यामुळं Indic-Spontaneous-Synth मॉडेल त्यासाठी उपयुक्त ठरणार आहे.

भारतीय संदर्भानुसार भाषांतर

AI4Bharat चा उद्देश भारतीय भाषांसाठी AI तंत्रज्ञानाचा विकास करणे आहे. ‘भाषानुवाद’ या डेटासेटमुळे भारतीय एआय संशोधनात चांगला बदल घडणार आहे. हा डेटासेट भारतीय भाषांसाठी महत्त्वाचे साधन आहे. भविष्यात त्यात अधिक भाषांचा समावेश करून भारतीय संदर्भानुसार भाषिक भाषांतर मॉडेल तयार करण्याचा AI4Bharat चा विचार आहे.

AI4Bharat आणि IBM रिसर्च इंडिया 

AI4Bharat आणि IBM रिसर्च इंडिया ‘The AI Alliance’ च्याअंतर्गत महत्त्वाची प्रगती करत आहे. यामुळे MILU (Multi-task Indic Language Understanding Benchmark) सारखा डेटासेट तयार झाला आहे, त्यामध्ये 11 भारतीय भाषांमधून 8 डोमेनमध्ये 85,000 प्रश्न आहेत. जनरल नॉलेज आणि सांस्कृतिक बाबींसंदर्भात हा प्रकल्प मैलाचा दगड ठरणार आहे.

‘भाषानुवाद’ आणि Indic-Spontaneous-Synth या डेटासेट्सचा उपयोग संशोधक GitHub वर जाऊन करू शकतात, यामुळे भारतीय भाषांसाठी एआय संशोधनालाही गती मिळेल.

Leave a Comment

Your email address will not be published. Required fields are marked *

Leave a Comment

Your email address will not be published. Required fields are marked *

इतर बातम्या

Stubble Burning : ऑक्टोबर - नोव्हेंबर महिन्यामध्ये पंजाब, हरियाणा, मध्यप्रदेश राजस्थान या राज्यात मोठ्या प्रमाणावर शेतकचरा पेंढा जाळला जातो. यामुळे
Sunday holiday: ब्रिटिश सरकारने मागण्या नाकारल्यावर लोखंडे यांनी देशभरात मोठं आंदोलन केलं. त्यांनी विविध ठिकाणी सभा घेतल्या, मोर्चे काढले आणि
Passport rules: भारतीय परराष्ट्र मंत्रालयाने पासपोर्टच्या नियमांमध्ये एक महत्त्वपूर्ण बदल केला आहे. या बदलामुळे आता पती-पत्नीला त्यांच्या पासपोर्टमध्ये एकमेकांचं नाव

विधानसभा फॅक्टोइड

दिल्ली – रेखा गुप्ता यांनी दिल्लीच्या मुख्यमंत्रीपदाची घेतली शपथ

दिल्ली – रेखा गुप्ता यांनी दिल्लीच्या मुख्यमंत्रीपदाची घेतली शपथ