च्याट जीपीटी: गैरअङ्ग्रेजीभाषी प्रयोगकर्ताप्रति पूर्वाग्रहका तीन दृष्टान्त

    • Author, जो टाइडी
    • Role, बीबीसी साइबर रिपोर्टर

आर्टिफिशल इन्टेलिजेन्स सिस्टम अङ्ग्रेजी भाषाको पक्षपाती भएका कारण विश्वमा अङ्ग्रेजी बोल्ने-लेख्ने बाहेकका अन्य मानिसहरू पछाडि परिरहेको विशेषज्ञहरूले चेतावनी दिएका छन्।

च्याट जीपीटी र गूगलको बार्ड जस्ता एआई टूलले लाखौँ मानिसका लागि नयाँ दक्षता र व्यवसाय गर्नका लागि जुक्तिहरू उपलब्ध गराइदिएका छन् तर त्यसले कैयौँ मानिसहरूलाई सम्भावित रूपमा नोक्सान पनि पुर्‍याइरहेको छ।

पछिल्ला केही महिनामा इन्डोनेशियाली, जापानी, चिनियाँ, कोरियाली तथा अन्य कैयौँ भारतीय भाषा लगायत खासगरी सरकार समर्थित कम्पनीहरू आफ्नो मूल भाषाका लागि एआई सुरु गर्न दौडधुप गरिरहेका छन्।

तर के तिनले सिलिकन भ्यालीका एआई बोटसँग प्रतिस्पर्धा गर्न सक्लान् या कुनै ठोस विकल्प दिन सक्लान्?

गैरअङ्ग्रेजीभाषीहरू जेनेरेटिभ एआईको लहरमा पछाडि परिरहेको तीन तरिकाबाट प्रस्ट हुन्छ।

१. गैरअङ्ग्रेजीभाषीका लागि ती कम सटिक र असाध्यै महँगा छन्

मशिन लर्निङ इन्जिनियर येनी जूनले विभिन्न भाषामा च्याट जीपीटी ४ को परीक्षण गर्दा त्यस्ता समस्या भेट्न थालिन्।

उनले भनिन्, "मैले कोरियाली र चिनियाँ जस्ता धेरैखाले तथ्याङ्क उपलब्ध रहेका भाषामा पनि यस्ता एआईले असाध्यै सुस्त गतिमा काम गरिरहेको पाएँ।"

यो महिनाको सुरुमा येनीले गणितका केही कठिन समस्यालाई च्याट जीपीटी ४ले विभिन्न भाषामा कसरी जबाफ दिँदो रहेछ भनेर दाँज्ने निर्णय गरिन्।

उनले विभिन्न १६ भाषामा गणितको एउटै प्रश्न सोधिन्। अङ्ग्रेजी, जर्मन र स्पेनिस भाषामा त्यसले सजिलोसित समस्याको समाधान गरेको पाइन्।

वास्तवमा जीपीटी ४ ले आर्मेनियाली या फारसी भाषाको तुलनामा तीन गुणाभन्दा थोरै कम समयमा अङ्ग्रेजी भाषामा गणितको समस्याको समाधान खोजेको पाइयो। त्यसैगरी बर्मेली या अमहारिक (इथियोपियाको भाषा) भाषामा कठिन प्रश्न हल गर्नै सकेन।

यो येनीले च्याट जीपीटी र तथाकथित ठूला भाषाका एआई मोडलको असमान क्षमता औँल्याउन गरेको पछिल्लो परीक्षण थियो।

यो ग्रीष्म यामको सुरुमा येनीले टोकनाइजर टूलको प्रयोगले कसरी यी एआई मोडलहरूलाई गैरअङ्ग्रेजी भाषामा समाधान उपलब्ध गराउन गाह्रो परिरहेको छ भन्ने औँल्याइदिइन्।

एआईले वाक्यलाई छोटा छोटा टुक्रा पारिदिन्छ ता कि बुझ्न सजिलो होस्। एआईले जति भाषा बुझ्दैन त्यति धेरै सङ्ख्यामा वाक्य टुक्र्याउँछ।

उदाहरणका लागि “मलाई मोरेल च्याउ बारे बताऊ” भन्नेबारे टोकनाइजर टूलमा जिज्ञासा राख्दा एआईले विभिन्न भाषामा विभिन्न टोकन बनायो।

  • अङ्ग्रेजी भाषामा: ६ टोकन
  • स्पेनिस भाषामा: ८ टोकन
  • चिनियाँ भाषामा: १४ टोकन
  • बर्मेली भाषामा: ६५ टोकन

यसको महत्त्व छ। यसको अर्थ हो गैरअङ्ग्रेजी प्रयोगकर्ताले परिणाम ढिलो पाउँछन् र प्रोम्ट बक्समा अङ्ग्रेजीभाषीको तुलनामा थप शब्द मात्र राख्न सक्छन् किनभने बक्समा यति मात्र शब्द अटाउने भन्ने सीमा हुन्छ।

येनी भन्छिन्, यसको वास्तविक बेफाइदा त्यसबेला थाहा हुन्छ जब यस्ता एआई टूल प्रयोग गरेर मानिसहरू आफ्नो उत्पादन वा सेवा दिन खोज्छन्।

उदाहरणका लागि यदि च्याउ उमार्ने व्यवसायीले ग्राहकका प्रश्नको जबाफ दिन च्याटजीपीटी ४ लाई आफ्नो एप बनाए भने त्यस कम्पनीलाई त्यस्तो सेवा दिन १० गुणा महँगो पर्न जान्छ। किनभने बर्मेली उपभोक्ताका प्रश्नको जबाफ दिन अङ्ग्रेजीको तुलनामा धेरै टोकन प्रयोग गर्नुपर्ने हुन्छ।

च्याटजीपीटी मात्र होइन सबै ठूला भाषाको मोडलमा यस्तै खाले असमानता हुनेछ।

गूगलको बार्डलाई प्रश्न सोध्दा उसको स्वीकारोक्तिपूर्ण जबाफ छ, “गैरअङ्ग्रेजी भाषामा टोकन बनाउन देखि अन्य जबाफ माग्न ढिलो र अधिक महँगो हुन सक्छ किनभने गैरअङ्ग्रेजी भाषामा टोकनाइजेशनको प्रक्रिया अङ्ग्रेजीको तुलनामा बढता जटिल छ।

२. अङ्ग्रेजीलाई प्राथमिकता दिने एआईले अरू संस्कृति झल्काउँदैन

इन्टरनेटमा अङ्ग्रेजी भाषाको प्रभुत्व छ र यो आर्टिफिसल इन्टेलिजेन्समा पनि हाबी छ।

त्यो किन भने अधिकांश एआई मोडल ओपन इन्टरनेटबाट लिइएको डेटा प्रयोग गरेर प्रशिक्षित गरिएका हुन्छन् जुन डेटा अधिकांश अङ्ग्रेजीमा हुन्छ।

सेन्टर फर डेमोक्रेसी एन्ड टेक्नोलोजी (सीडीटी) ले एआईको सञ्चालनमा भाषाबारेको पूर्वाग्रहका सम्बन्धमा एक रिपोर्ट तयार पारेको छ। त्यसका अनुसार विश्वमा केवल १६ प्रतिशत जनसङ्ख्याले अङ्ग्रेजी बोल्ने भए पनि ६३.७% वेबसाइट अङ्ग्रेजी भाषामा छन्।

अङ्ग्रेजीलाई अक्सर 'अत्यन्त उच्च स्रोतसाधन सम्पन्न' भाषाका रूपमा लिइन्छ। त्यसैगरी सोसल मिडिया पोस्टदेखि व्यावसायिक रिपोर्ट र विज्ञानका लेखसम्म सबै जसो अङ्ग्रेजीमा गर्ने गरिन्छ।

तर कुनै भाषा अनलाइनमा कति स्रोत साधनयुक्त छ भन्ने कुरा त्यो भाषा बोल्ने कति मानिस छन् भन्ने अनुपातसँग मिल्दैन। सीडीटी अनुसन्धानकर्ताहरू भन्छन् उदाहरणका लागि अफ्रिकी महादेशभर ६० करोड इन्टरनेट प्रयोगकर्ता भए पनि सबैजसो अफ्रिकी भाषाहरू कम स्रोत साधनयुक्त छन्।

भाषाका वर्गीकरणबारे शिक्षाविद्का धारणा फरक फरक छन् तर तलको वर्गीकरणले भाषाहरू कति स्रोतसाधनयुक्त छन् भन्ने एउटा दृष्टान्त दिन्छ।

  • ठूलो उच्च स्रोत साधनवाला भाषा: अङ्ग्रेजी
  • उच्च स्रोत साधनवाला भाषा: चिनियाँ, जापानी, स्पेनी, जर्मन, फ्रान्सेली, रुसी, अरबी
  • मध्यम स्रोत साधनवाला भाषा: हिन्दी, पोर्चुगलको भाषा, भियतनामको भाषा, डच, कोरियाली, इन्डोनेशियाली, फिनल्यान्डको भाषा, पोलिश, चेक भाषा
  • कम स्रोत साधनवाला भाषा: बास्क, हेइटिको भाषा, क्रियोल, स्वाहिली, अम्हारिक, बर्मेली, चेरोकी, जुलु र अन्य धेरैजसो भाषाहरू

सीडीटीले आफ्नो रिपोर्टमा भनेको छ, “यो मोडिएको तर्क विश्वका इन्टरनेट प्रयोगकर्ताले बोलेका भाषाको विविधता दर्शाउन विफल छ र त्यसले अङ्ग्रेजी भाषाको प्रभुत्वलाई नै स्थापित गर्छ।”

येनी जून उनको परीक्षणले पनि कडा पश्चिमा पूर्वाग्रह प्रस्ट भएको देखाएको बताउँछिन्।

उनी भन्छिन्, “मैले केही परीक्षण गरेकी छु जस्तो कि एआईलाई ऐतिहासिक महत्त्वका घटना र मानिसबारे अरू भाषामा प्रश्न सोध्दा पनि पश्चिमा तथ्याङ्क र घटनाक्रमबारे नै जबाफ आउने गर्छ।”

३. सिलिकन भ्याली सम्भवत यस्ता असमानता ठेगान लगाउन सक्दैन

ओपन एआईका एकजना कर्मचारीले डेभलपर फोरममा गत वर्ष कम्पनीका मोडेलहरू “नियतवश नै अङ्ग्रेजी भाषामा” तयार गर्ने गरिएको स्वीकार गरेका थिए। उनले भनेका थिए “स्पेनी भाषाबाट थप परिणाम आयो भने त्यो बोनस हो।”

अमेरिकी सिनेट समितिको एक सुनुवाइमा ओपन एआईका सीईओ स्याम अल्टमनले अङ्ग्रेजी बोल्नेहरूको पक्षमा पूर्वाग्रह देखिन्छ भन्ने अभिव्यक्तिलाई चुनौती दिए र भने -अन्य संस्कृति पनि यसमा संलग्न होऊन् भनेर सुनिश्चित गर्न कम्पनीले "समान रूपमा ध्यान केन्द्रित" गरेको छ।

ओपन एआई अथवा गूगलले हामीले उनका प्रेस कार्यालयलाई पठाएका प्रश्नको उत्तर दिएका छैनन्।

अर्को विशाल एआई, मेटाले नो ल्याङ्ग्वेज लेफ्ट बहाइन्ड नामको ठूलो अनुवाद आयोजनामा काम गरिरहेको छ। त्यसले मशिन लर्निङ अनुवाद टूललाई राम्रो बनाउने भनेको छ। तर उसको पछिल्लो भाषाको मोडल लामा २ पनि गैर अङ्ग्रेजीभाषीहरूले “संवेदनशील र सावधानीपूर्वक प्रयोग गर्नुपर्छ।”

एआई केन्द्रित भेन्चर क्यापिटल फन्ड डीफरेन्सिअल भेन्चर्सका संस्थापक पार्टनर निक एडम्स भन्छन् अहिलेकै जस्तो स्थिति कायम रहिरहने हो भने पैसा र लगानी अहिले नै धनी कम्पनी देश र भाषाप्रति नै हुनेछ।

उनले भने, "मलाई लाग्छ एआईको वर्तमान स्थितिले असमानता सुधार्ने होइन थप बढाउनेछ। उदाउँदा बजार समक्ष पश्चिमी देशका मोडलसँग प्रतिस्पर्धा गर्न कम्प्युटिङ शक्ति, डेटा सेट र एआई संसाधन छैनन्।"

गैर-अङ्ग्रेजी एआईमा लगानीको कमीको साथ साथमा डेटा समस्या सामना गर्न पनि कठिन हुनेछ। त्यो अमेरिकी प्राविधिक ठूला कम्पनीका लागि पनि कठिन नै रहनेछ।

एक चरणमा बहुभाषी भाषाका मोडल विकसित गरेमा डेटा असमानता हल गर्न सकिने ठानिएको थियो। उच्च संसाधनयुक्त भाषामा रहेका प्रवृत्ति हेरेर त्यसलाई कम स्रोत साधनयुक्त भाषामा प्रयोग गर्न सक्ने ठानिएको थियो।

तर सीडीटी लगायत अन्य अनुसन्धानकर्ताहरू भन्छन् बहुभाषी मोडलहरूले गैरअङ्ग्रेजी प्रयोगकर्तामा अझ पनि राम्रो प्रदर्शन गर्दैनन्।

भारतको इलेक्ट्रोनिक्स र इन्फरमेशन टेक्नोलोजी मन्त्रालयको एक सम्भावना बोकेको मानिने आयोजनाले कम संसाधनयुक्त भाषामा क्राउड सोर्सिङका आधारमा तालिम सम्बन्धी डेटामा सुधार ल्याउने उद्देश्य राखेको छ।

त्यो आयोजनाले मानिसहरूलाई “तथ्याङ्क पुष्टि गरेर आफ्नै एआई मोडल बनाऊ” भन्ने आह्वान गरेको छ।

सहभागीहरूले विभिन्न भारतीय भाषामा पडकास्ट या अन्य कार्यक्रम बनाउँछन्। र उनीहरूका आफ्ना भाषामा अनुवाद गर्नेलाई पुरस्कार दिने बताएका छन्।

तर गर्नुपर्ने धेरै छ, पहाड चढ्नु जत्तिकै। आआफ्नो भाषा बोल्नेहरूको सङ्ख्या ठूलो भए पनि यो आयोजनामा केही हजार मानिसहरू मात्र संलग्न भएका छन्।