You’re viewing a text-only version of this website that uses less data. View the main version of the website including all images and videos.
3 เรื่องที่ ChatGPT ลำเอียง และทิ้งผู้ใช้ที่ไม่ได้พูดภาษาอังกฤษไว้เบื้องหลัง
- Author, โจ ไทดี
- Role, ผู้สื่อข่าวด้านไซเบอร์ บีบีซี
การประชุมสุดยอดเกี่ยวกับปัญญาประดิษฐ์ (Artificial Intelligence-AI) หรือ เอไอ ที่สหราชอาณาจักรเพิ่งจะผ่านพ้นไป โดยมีคำสัญญาว่าทั่วโลกจะร่วมมือกันในการปกป้องมนุษยชาติจากภัยจากเอไอ ที่อาจเกิดขึ้นได้ในอนาคตในทางทฤษฎี
แต่ก็มีหลายคนที่วิจารณ์ว่าการประชุมนี้ไม่ได้พูดคุยถึงอีกหลาย ๆ ปัญหาเกี่ยวกับเอไอที่กำลังเกิดขึ้นอยู่ในขณะนี้
ผู้เชี่ยวชาญต่างเตือนว่ากลุ่มผู้ที่ไม่ได้ใช้ภาษาอังกฤษทั่วโลกกำลังถูกทิ้งไว้เบื้องหลังเมื่อพูดถึงเทคโนโลยีอย่างเอไอ เนื่องจากระบบปัญญาประดิษฐ์มีความลำเอียงและจะใช้ได้อย่างมีประสิทธิภาพมากกว่า หากใช้ในภาษาอังกฤษ
ปัญญาประดิษฐ์ชนิด Generative AI อย่างเช่น ChatGPT และ Bard ของกูเกิล ได้นำทักษะและธุรกิจไอเดียใหม่ ๆ ไปยังผู้คนหลายล้านคน แต่ในขณะเดียวกันก็อาจจะทิ้งคนอีกเป็นจำนวนมากกว่านั้นให้ต้องเสียเปรียบ
ในช่วง 2-3 เดือนที่ผ่านมา บริษัทจำนวนไม่น้อยที่ได้รับการสนับสนุนโดยรัฐบาลของพวกเขา ได้เริ่มเดินหน้าพัฒนาปัญญาประดิษฐ์ในภาษาของตัวเอง ไม่ว่าจะเป็นในภาษาอินโดนีเซีย ญี่ปุ่น จีน เกาหลี รวมถึงอีกหลายภาษาที่ใช้ในประเทศอินเดีย
แต่ว่าปัญญาประดิษฐ์ที่พัฒนาในภาษาต่าง ๆ ที่ไม่ใช่ภาษาอังกฤษเหล่านี้ จะสามารถเป็นตัวเลือกที่ทัดเทียมกับแชทบอทของซิลิคอนวัลเลย์ได้หรือไม่
นี่คือ 3 ประเด็นที่ทำให้ผู้ที่ไม่ได้ใช้ภาษาอังกฤษถูกทิ้งไว้เบื้องหลัง ในกระแสของปัญญาประดิษฐ์ประเภท Generative AI
1. เอไอที่ไม่ใช่ภาษาอังกฤษนั้นมีความแม่นยำน้อยกว่า และราคาแพงกว่า สำหรับผู้ที่ไม่ได้ใช้ภาษาอังกฤษ
เยนนี จุน วิศวกรคอมพิวเตอร์ด้านแมชชีนเลิร์นนิง เริ่มสังเกตเห็นปัญหานี้เมื่อเธอเริ่มทดสอบ ChatGPT-4 ในภาษาอื่น ๆ ที่ไม่ใช่ภาษาอังกฤษ
"ฉันสังเกตว่ามันทำงานช้ากว่ามาก และทำงานได้ไม่ดีนักในภาษาเกาหลีและภาษาจีน ทั้งที่โดยทั่วไปแล้วทั้งสองเป็นภาษาที่มีข้อมูลคุณภาพดีสำหรับการฝึกเอไออยู่" เธอกล่าว
ในช่วงต้นเดือนที่ผ่านมา เยนนีตัดสินใจที่จะทดสอบ ChatGPT-4 ซึ่งเป็นเอไอตัวล่าสุดจากบริษัทโอเพนเอไอ (OpenAI) โดยการใช้โจทย์ทางคณิตศาสตร์ที่มีลูกเล่นเล็กน้อย
เธอถามคำถามทางคณิตศาสตร์เดียวกันนี้ใน 16 ภาษา และพบกว่า ChatGPT-4 สามารถไขปัญหานี้ได้ดีกว่าในบางภาษา เช่น ภาษาอังกฤษ ภาษาเยอรมัน และภาษาสเปน
ChatGPT-4 สามารถแก้ปัญหาเลขได้ถูกต้องมากกว่าถึง 3 เท่า เมื่อถามและให้ตอบเป็นภาษาอังกฤษ เทียบกับภาษาอื่น ๆ เช่น ภาษาอาร์เมเนียน หรือ ภาษาฟาร์ซี นอกจากนี้ เธอยังพบด้วยว่ามันไม่สามารถตอบปัญหาข้อยาก ๆ ได้เลยในภาษาพม่า หรือในภาษาอัมฮาราของเอธิโอเปีย
นี่ถือเป็นการทดสอบครั้งล่าสุดที่เยนนีได้ทำ เพื่อแสดงให้เห็นความเหลื่อมล้ำภายในตัว ChatGPT รวมถึงโมเดลปัญญาประดิษฐ์อื่นๆ ที่เรียกรวม ๆ ว่า โมเดลภาษาขนาดใหญ่ (large language models หรือ LLMs)
ในการทดสอบก่อนหน้านี้ในช่วงฤดูร้อน เยนนีได้สร้างเครื่องมือตรวจวัดการแบ่งแยกข้อความ หรือที่เรียกว่า Tokenizer ซึ่งแสดงให้เห็นว่าเหตุใดโมเดลปัญญาประดิษฐ์เหล่านี้จึงทำงานได้แย่กว่าในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ
ปกติแล้วโมเดลปัญญาประดิษฐ์จะแบ่งประโยคหนึ่ง ๆ ออกเป็นท่อนที่เล็กลงซึ่งเอไอเข้าใจได้ โดยแต่ละท่อนที่ถูกแบ่งออกมานี้เรียกว่าโทเคน (token) ทั้งนี้ ยิ่งเอไอตัวนั้น ๆ เข้าใจภาษาหนึ่ง ๆ น้อยเท่าใด ก็แปลว่าจะมีโทเคนถูกผลิตขึ้นมามากขึ้นเท่านั้น (เนื่องจากเอไอตัวนั้นไม่สามารถเข้าใจประโยคยาว ๆ ที่ประกอบจากหลายคำได้ จึงต้องซอยแต่ละประโยคออกเป็นท่อนย่อย ๆ ถี่ขึ้น ซึ่งก็คือการมีโทเคนมากขึ้นนั่นเอง - ผู้แปล)
สมมติถ้าคุณใส่คำสั่งง่าย ๆ อย่างเช่น "บอกฉันเกี่ยวกับเห็ดมอเรล" เข้าไปในเครื่องมือตรวจวัดการแบ่งแยกข้อความที่เรียกว่า Tokenizer นี้ในภาษาต่าง ๆ กัน จำนวนโทเคนของแต่ละภาษานั้นก็ต่างกันมาก
- ภาษาอังกฤษ: ุุ6 โทคเคน
- ภาษาสเปน: 8 โทเคน
- ภาษาจีน: 14 โทเคน
- ภาษาพม่า: 65 โทเคน
นี่ถือเป็นประเด็นสำคัญ เพราะนั่นหมายความว่าผู้ใช้ที่ไม่ได้ใช้ภาษาอังกฤษจะได้ผลลัพธ์ช้ากว่า นอกจากนี้ การใช้ที่ไม่ใช่ในภาษาอังกฤษยังใส่คำสั่งเข้าไปได้น้อยกว่าเมื่อเทียบกับภาษาอังฤษอีกด้วย เนื่องจากกล่องข้อความรับคำสั่งถูกจำกัดด้วยจำนวนโทเคน
แต่เยนนีบอกว่า การเสียเปรียบที่แท้จริงเกิดขึ้นเมื่อธุรกิจต่าง ๆ พยายามที่จะสร้างผลิตภัณฑ์และบริการโดยเอไอเหล่านี้
ถ้าเจ้าของธุรกิจเพาะเห็ดผนวก ChatGPT-4 เข้าไปในแอปพลิเคชันของตัวเองเพื่อตอบคำถามกับลูกค้า ก็จะต้องใช้ต้นทุนแพงกว่า 10 เท่าเพื่อตอบสนองลูกค้าที่ใช้ภาษาพม่าเมื่อเทียบกับลูกค้าที่ใช้ภาษาอังกฤษ ที่เป็นเช่นนี้เพราะจำนวนโทเคนที่ต้องใช้ในการตอบสนองต่อคำถามของลูกค้าในภาษาพม่านั้นมากกว่าภาษาอังกฤษ
สิ่งนี้ไม่ได้เกิดกับ ChatGPT เท่านั้น โมเดลภาษาขนาดใหญ่ทุกอันล้วนประสบปัญหานี้
Bard ซึ่งเป็นปัญญาประดิษฐ์ของกูเกิลยอมรับเองว่า "การสร้างโทเคนของ Bard ที่เป็นเอไอของกูเกิลในภาษาที่ไม่ใช่อังกฤษนั้น สามารถทำให้มันตอบสนองช้าและมีต้นทุนสูงกว่า เนื่องจากกระบวนการสร้างโทเคนในภาษาที่ไม่ใช่อังกฤษนั้นซับซ้อนกว่าในภาษาอังกฤษ" เอไอของกูเกิลตัวนี้ตอบ
2. เอไอที่ใช้ภาษาอังกฤษเป็นหลักไม่ได้สะท้อนให้เห็นถึงวัฒนธรรมอื่น ๆ
ภาษาอังกฤษนั้น เป็นภาษาที่แพร่หลายที่สุดในอินเทอร์เน็ต และขณะนี้ยังเป็นภาษาที่แพร่หลายที่สุดในวงการปัญญาประดิษฐ์ด้วย
โมเดลเอไอส่วนใหญ่ถูกฝึกด้วยข้อมูลที่ดึงมาจากโลกอินเทอร์เน็ต ซึ่งส่วนใหญ่อยู่ในภาษาอังกฤษ
ศูนย์เพื่อประชาธิปไตยและเทคโนโลยี (The Centre for Democracy and Technology) ระบุในรายงานเกี่ยวกับความลำเอียงด้านภาษาของเอไอว่า กว่า 63.7% ของเว็บไซต์ทั้งหมดเป็นภาษาอังกฤษ ทั้ง ๆ ที่มีคนทั่วโลกเพียง 16% เท่านั้นที่ใช้ภาษานี้เป็นหลัก
ภาษาอังกฤษ ถือเป็นภาษาที่ "มีทรัพยากรทางภาษาสูงมาก" เนื่องจากข้อความตัวหนังสือในภาษาอังกฤษมีอยู่อย่างมากมายในทุกสิ่ง ทั้งโพสต์ต่าง ๆ บนโซเชียลมีเดีย ไปจนถึงรายงานทางธุรกิจและงานวิจัยทางวิทยาศาสตร์
แต่การที่ภาษาหนึ่ง ๆ มีทรัพยากรทางภาษาในโลกออนไลน์มากหรือน้อยแค่ไหน อาจไม่ได้สะท้อนว่าภาษานั้น ๆ มีผู้ใช้เป็นภาษาหลักมากหรือน้อยขนาดไหนตามไปด้วยก็ได้
นักวิจัยจากศูนย์เพื่อประชาธิปไตยและเทคโนโลยี ระบุว่า ภาษาที่ใช้ในทวีปแอฟริกาเกือบทุกภาษาจัดว่า "มีทรัพยากรทางภาษาต่ำ" แม้ว่าทั่วทวีปแอฟริกาจะมีผู้ใช้งานอินเทอร์เน็ตมากกว่า 600 ล้านคนก็ตาม
สำหรับการจัดแบ่งกลุ่มภาษาว่ามีทรัพยากรทางภาษามากหรือน้อย แม้ว่าอาจจะต่างกันไปตามงานวิจัยแต่ละชิ้น แต่โดยทั่วไปแล้ว ภาษาต่าง ๆ ถูกแบ่งระดับตามทรัพยากรทางภาษาได้ดังนี้
- มีทรัพยากรทางภาษาสูงมาก: ภาษาอังกฤษ
- มีทรัพยากรทางภาษาสูง: ภาษาจีน, ภาษาญี่ปุ่น, ภาษาสเปน, ภาษาเยอรมัน, ภาษาฝรั่งเศส, ภาษารัสเซีย, ภาษาอารบิก
- มีทรัพยากรทางภาษาปานกลาง: ภาษาฮินดี, ภาษาโปรตุเกส, ภาษาเวียดนาม, ภาษาดัตช์, ภาษาเกาหลี, ภาษาอินโดนีเซีย, ภาษาฟินแลนด์, ภาษาโปแลนด์, ภาษาเช็ก
- มีทรัพยากรทางภาษาต่ำ: ภาษาบาสก์, ภาษาครีโอลเฮติ, ภาษาสวาฮิลี, ภาษาอัมฮารา, ภาษาพม่า, ภาษาเชโรกี, ภาษาซูลู และภาษาอื่น ๆ เกือบทั้งหมด
OpenAI ไม่ได้เปิดเผยว่าข้อมูลที่นำมาฝึก ChatGPT นั้นเป็นภาษาอังกฤษในสัดส่วนเท่าใด ถ้าคุณถามเรื่องนี้กับ ChatGPT มันก็จะตอบว่า "ข้อมูลโดยละเอียดเกี่ยวกับสัดส่วนของแต่ละภาษาที่ใช้ในการเทรนยังถือว่าเป็นข้อมูลที่มีกรรมสิทธิ์" แชทบอทที่ชื่อ Bard ของกูเกิล ก็ตอบเช่นเดียวกันว่าข้อมูลดังกล่าวเป็น "ข้อมูลลับ"
"ความลำเอียงนี้เน้นย้ำให้เห็นถึงความล้มเหลวในการสะท้อนความหลากหลายของภาษาพูดของผู้ใช้อินเทอร์เน็ตทั่วโลก และยิ่งตอกย้ำการครอบงำของภาษาอังกฤษ" รายงานของศูนย์เพื่อประชาธิปไตยและเทคโนโลยีระบุ
เยนนี จุน บอกว่าการทดลองของเธอได้เผยให้เห็นถึงความลำเอียงไปทางโลกตะวันตกของเอไอ
"ฉันได้ทำการทดลองบางอย่าง เช่น ถามเอไอเกี่ยวกับเหตุการณ์และบุคคลในประวัติศาสตร์ที่มีความสำคัญ และแม้ว่าคุณจะถามในภาษาอื่น ๆ มันก็ยังจะให้คำตอบและข้อมูลที่มีความเป็นตะวันตกอย่างมากอยู่ดี" เธอระบุ
3. ซิลิคอน วัลเลย์ อาจไม่แก้ไขความเหลื่อมล้ำนี้
ศูนย์เพื่อประชาธิปไตยและเทคโนโลยีระบุว่า บริษัทสัญชาติอเมริกันไม่ได้ลงทุนกับการพัฒนาคุณภาพการใช้งานสำหรับลูกค้าที่ไม่ได้พูดภาษาอังกฤษ เนื่องจากมีโอกาสทำเงินได้น้อยกว่าจากลุกค้ากลุ่มนี้
หนึ่งในพนักงานของ OpenAI ยอมรับเมื่อปีที่แล้วว่า โมเดลเอไอของบริษัทนั้น "ถูกฝึกอย่างจงใจโดยใช้ภาษาอังกฤษ" และ "การผลิตคำตอบในภาษาสเปนที่ดีออกมาได้ถือเป็นโบนัส" โดยประเด็นนี้ได้รับการรายงานเป็นครั้งแรกโดยนิตยสารด้านเทคโนโลยี Wired
ในการให้การต่อคณะกรรมการวุฒิสภาของสหรัฐฯ แซม อัลต์แมน ซีอีโอของ OpenAI ถูกสอบถามเกี่ยวกับความลำเอียงไปยังผู้ที่พูดภาษาอังกฤษ โดยเขาตอบว่า OpenAI "ให้ความสำคัญอย่างเท่าเทียม" ในการทำให้วัฒนธรรมอื่น ๆ ถูกผนวกเข้ามาในเอไอของบริษัท
ทั้งนี้ ทั้ง OpenAI และกูเกิล ไม่ได้ตอบคำถามที่บีบีซีส่งไปสอบถาม
บริษัท เมตา (Meta) ซึ่งเป็นอีกหนึ่งยักษ์ใหญ่ด้านเอไอ กำลังลงทุนในโครงการเปลี่ยนผ่านขนาดใหญ่ที่เรียกว่า ไม่มีภาษาใดถูกทิ้งไว้เบื้องหลัง (No Language Left Behind) เพื่อพัฒนาเครื่องมือแปลภาษาโดยแมชชีนเลิร์นนิงสำหรับหลายร้อยภาษา
อย่างไรก็ตาม กระทั่ง เมตา ก็ยอมรับว่าโมเดลภาษาขนาดใหญ่ตัวล่าสุดของบริษัทที่เรียกว่า Llama 2 "ยังคงเปราะบางและควรใช้ด้วยความระมัดระวัง" สำหรับผู้ใช้ที่ไม่ใช่ภาษาอังกฤษ
นิค อดัมส์ ผู้ร่วมก่อตั้งกองทุนร่วมลงทุนที่เน้นด้านเอไอที่ชื่อ ดิฟเฟอเรนเชียล เวนเจอร์ส (Differential Ventures) บอกว่า ถ้าไม่มีอะไรเปลี่ยนแปลง เม็ดเงินและการลงทุนจะยังคงไหลไปยังบริษัท ประเทศ และภาษาที่รวยอยู่แล้ว
"ผมคิดว่าสถานะของเอไอตอนนี้จะยิ่งทำให้ความเหลื่อมล้ำแย่ลง ไม่ใช่ดีขึ้น" ประเทศตลาดเกิดใหม่ไม่มีพลังประมวลผลคอมพิวเตอร์ ชุดข้อมูล หรือเอไอ ที่จะสามารถแข่งกับเอไอของประเทศในโลกตะวันตกได้" เขากล่าว
เช่นเดียวกับประเด็นการขาดการลงทุนในเอไอที่ไม่ใช่ภาษาอังกฤษ ปัญหาเรื่องข้อมูลก็เป็นประเด็นที่ก้าวข้ามยากเช่นกัน และเป็นเรื่องที่อยู่พ้นไปจากบริษัทเทคโนโลยียักษ์ใหญ่ของสหรัฐฯ
ณ จุดหนึ่งในอดีต เคยมีความเชื่อกันว่าการพัฒนาโมเดลภาษาแบบหลากภาษาสามารถแก้ไขปัญหาความเหลื่อมล้ำทางข้อมูลในแต่ละภาษาได้ ด้วยการฝึกโมเดลเอไอให้ค้นหาแบบแผนในภาษาที่มีทรัพยากรทางภาษาสูง และประยุกต์ใช้มันในภาษาที่มีทรัพยากรทางภาษาต่ำ
อย่างไรก็ตาม ศูนย์เพื่อประชาธิปไตยและเทคโนโลยี รวมถึงนักวิจัยอื่น ๆ ชี้ว่า โมเดลภาษาแบบหลากภาษานั้น ยังคงทำงานได้แย่กว่าในภาษาที่ไม่ใช่ภาษาอังกฤษ
โครงการหนึ่งที่อาจช่วยแก้ปัญหาดังกล่าวได้ ริเริ่มขึ้นโดยกระทรวงอิเล็กทรอนิกส์และเทคโนโลยีสารสนเทศของอินเดีย ที่มุ่งจะพัฒนาจำนวนข้อมูลสำหรับการฝึกเอไอในภาษาที่มีทรัพยากรทางภาษาต่ำ โดยการใช้คราวด์ซอร์สซิง
โครงการที่ชื่อว่า บาชา แดน (Bhasha Daan) ได้ชักชวนผู้คนมา "ทำโมเดลเอไอด้านภาษาของคุณให้ดีขึ้นด้วยการตรวจสอบข้อมูล" ผู้เข้าร่วมจะต้องฟังคลิปเสียงจากพอดแคสต์หรือรายการโทรทัศน์ในภาษาอินเดียที่หลากหลาย และจะได้รับเหรียญรางวัลดิจิทัลเป็นรางวัลสำหรับการแปลเสียงดังกล่าวเป็นภาษาต่าง ๆ ของตัวเอง
แต่ทางยังคงอีกยาวไกล แม้ว่าอินเดียจะมีประชากรกว่า 1.3 พันล้านคน และภาษาย่อยอีกจำนวนไม่น้อย แต่มีคนเพียงไม่กี่พันคนเท่านั้นที่สมัครเข้าร่วมโครงการดังกล่าว