AI4Bharat ने भारतीय भाषांसाठी सर्वात मोठा संभाषण भाषांतर डेटासेट सादर केला आहे. या उपक्रमामुळे भारताच्या प्रचंड मोठ्या भाषिक विविधतेला चांगलाच लाभ होणार आहे. या डेटासेटमध्ये 13 प्रमुख भारतीय भाषांच्या 44,400 तासांच्या ऑडिओचा समावेश आहे. हे डेटासेट भारतीय भाषांसमोरील आव्हांनांवर उपाय शोधण्यास मदत करतील. उदाहरणार्थ, एका वाक्यात अनेक भाषांचा वापर आणि बोलीभाषेतील विविधता यामुळे भाषांतर तंत्रज्ञानात महत्त्वपूर्ण सुधारणा होईल.
या डेटासेटमध्ये हिंदी, बंगाली, तामिळ, तेलगु, मल्याळम, कन्नड, गुजराती, मराठी, ओरिया, पंजाबी, उर्दू, आसामी आणि नेपाळी या भाषांचे अनुवाद उपलब्ध असणार आहेत. सरकारी डेटाबेस, इंटरनेट आणि कृत्रिम बुद्धिमत्तेचा वापर अशा विविध स्रोतांकडून हा डेटा गोळा करण्यात आला आहे. जागतिक डेटाबेसमध्ये अनेकदा भारतीय भाषांच्या विविधतेला, बहुआयामाकडे दुर्लक्ष केलं जातं. मात्र AI4Bharat च्या ‘भाषानुवाद’मध्ये भारतीय भाषांच्या वैशिष्ट्यांना सुनिश्चित करत कोडस्विचिंग आणि विविध बोलीभाषांच्या आव्हानांकडे विशेष लक्ष देण्यात आले आहे.
Indic-Spontaneous-Synth: नैसर्गिक भाषांतरासाठी नवीन मॉडेल
AI4Bharat ने एक नवीन कृत्रिम मूल्यांकन संच, ‘Indic-Spontaneous-Synth’ देखील सादर केला आहे. विद्यमान भाषांतर मॉडेल्सच्या नैसर्गिक आणि उत्स्फुर्त संभाषण मर्यादांना ओळखून हे मॉडेल विशेष करून तयार करण्यात आले आहे. फिक्स्ड डेटासेटवर प्रशिक्षित मॉडेल्स नैसर्गिक भाषणाचे भाषांतर करण्यात अयशस्वी ठरतात. त्यामुळं Indic-Spontaneous-Synth मॉडेल त्यासाठी उपयुक्त ठरणार आहे.
भारतीय संदर्भानुसार भाषांतर
AI4Bharat चा उद्देश भारतीय भाषांसाठी AI तंत्रज्ञानाचा विकास करणे आहे. ‘भाषानुवाद’ या डेटासेटमुळे भारतीय एआय संशोधनात चांगला बदल घडणार आहे. हा डेटासेट भारतीय भाषांसाठी महत्त्वाचे साधन आहे. भविष्यात त्यात अधिक भाषांचा समावेश करून भारतीय संदर्भानुसार भाषिक भाषांतर मॉडेल तयार करण्याचा AI4Bharat चा विचार आहे.
AI4Bharat आणि IBM रिसर्च इंडिया
AI4Bharat आणि IBM रिसर्च इंडिया ‘The AI Alliance’ च्याअंतर्गत महत्त्वाची प्रगती करत आहे. यामुळे MILU (Multi-task Indic Language Understanding Benchmark) सारखा डेटासेट तयार झाला आहे, त्यामध्ये 11 भारतीय भाषांमधून 8 डोमेनमध्ये 85,000 प्रश्न आहेत. जनरल नॉलेज आणि सांस्कृतिक बाबींसंदर्भात हा प्रकल्प मैलाचा दगड ठरणार आहे.
‘भाषानुवाद’ आणि Indic-Spontaneous-Synth या डेटासेट्सचा उपयोग संशोधक GitHub वर जाऊन करू शकतात, यामुळे भारतीय भाषांसाठी एआय संशोधनालाही गती मिळेल.