วอยซ์โคลนนิง : สร้างสำเนาเสียงด้วยคอมพิวเตอร์ เทคโนโลยีที่ศิลปินและอาชญากรไซเบอร์สนใจ

ทิม เฮลเลอร์

ที่มาของภาพ, Tim Heller

คำบรรยายภาพ, ทิม เฮลเลอร์ เป็นนักแสดงและศิลปินลงเสียง
    • Author, คิตตี พัลไม
    • Role, ผู้สื่อข่าวธุรกิจ

ขณะที่มีการนำเทคโนโลยีการสร้างสำเนาเสียง (voice cloning) ไปใช้งานได้อย่างมีประสิทธิผลมากยิ่งขึ้น ทั้งนักแสดงและอาชญากรไซเบอร์

เมื่อ ทิม เฮลเลอร์ ได้ยินเสียงของเขาที่ถูกทำสำเนา หรือ "โคลน" ครั้งแรก เขาบอกว่า มันเหมือนมากจน "ทำให้ผมอ้าปากค้าง...มันน่าเหลือเชื่อมาก"

การโคลนเสียงคือการใช้โปรแกรมคอมพิวเตอร์ในการสังเคราะห์เสียงคนขึ้นมาซึ่งสามารถนำเสียงนี้ไปปรับใช้งานได้

จากเสียงบันทึกคนกำลังพูดคุย ซอฟต์แวร์นี้สามารถที่จะทำสำเนาเสียงของคนคนนั้นให้พูดคำหรือประโยคต่าง ๆ ได้ตามที่คุณพิมพ์ลงไป

ความก้าวหน้าในเทคโนโลยีนี้ ทำให้เสียงที่สร้างจากคอมพิวเตอร์มีความแม่นยำอย่างน่าตกใจ ซอฟต์แวร์นี้ไม่เพียงแต่สามารถจับสำเนียงของคุณได้ แต่ยังสามารถจับจังหวะจะโคน น้ำเสียง และการรื่นไหลในการพูดและการหายใจของคุณได้ด้วย

เสียงที่ถูกโคลนขึ้นมา สามารถที่จะดัดแปลงให้แสดงอารมณ์ความรู้สึกได้ตามต้องการด้วย อย่าง โกรธ, กลัว, มีความสุข, รัก หรือเบื่อ

นายเฮลเลอร์ นักแสดงและศิลปินพากย์เสียงอายุ 29 ปี จากรัฐเทกซัส สหรัฐฯ ทำทุกอย่าง ตั้งแต่พากย์เสียงตัวละครในการ์ตูน บรรยายหนังสือเสียงและสารคดี ลงเสียงในวิดีโอเกม และพากย์เสียงในตัวอย่างภาพยนตร์

เขาเล่าว่า เมื่อไม่นานนี้ เขาได้ใช้การโคลนเสียง "เป็นเกราะป้องกันอนาคต" อาชีพของเขา

เขาบอกว่า มันทำให้เขาสามารถรับงานได้มากขึ้น ยกตัวอย่าง ถ้าเรารับงานซ้อน เขาสามารถที่จะส่งเสียงโคลนของเขาไปเพื่อทำงานอีกงานหนึ่งแทน

"ถ้าผมรับงานอีกงานหนึ่งไว้...ผมสามารถระบุ 'เสียงพากย์' [เขาหมายถึงเสียงโคลนของเขา] เป็นทางเลือกเพื่อประหยัดเวลาให้ลูกค้า และสร้างรายได้ที่ไม่ต้องลงแรงซ้ำให้แก่ตัวเองได้" นายเฮลเลอร์ กล่าว

ในการโคลนเสียงของเขา นายเฮลเลอร์ ต้องเดินทางไปใช้บริษัท VocaliD ที่อยู่ในนครบอสตัน ซึ่งเป็นหนึ่งในบริษัทที่กำลังขยายตัวและนำเสนอบริการดังกล่าว

รูพัล พาเทลซึ่งเป็นศาสตราจารย์ด้านศาสตร์การสื่อสารและความผิดปกติ (communication sciences and disorders) ที่มหาวิทยาลัยนอร์ธอีสเทิร์น เป็นผู้ก่อตั้ง VocaliD และเป็นประธานเจ้าหน้าที่บริหาร

ศ.พาเทล ตั้งธุรกิจนี้ขึ้นในปี 2014 เป็นการต่อขยายการทดลองทางการแพทย์ของเธอ ในการสร้างเสียงเทียมให้คนไข้ ที่ไม่สามารถพูดคุยได้โดยปราศจากการช่วยเหลือ อย่าง คนที่สูญเสียเสียงหลังการผ่าตัดหรือการเจ็บป่วย

รูพัล พาเทล กำลังฟังเสียง

ที่มาของภาพ, Rupal Patel

คำบรรยายภาพ, ศ.พาเทล นักวิชาการในสหรัฐฯ เป็นผู้เชี่ยวชาญในการโคลนเสียง

เธอบอกว่า เทคโนโลยีนี้ซึ่งมีการใช้ปัญญาประดิษฐ์ หรือซอฟต์แวร์ที่สามารถ "เรียนรู้" และปรับตัวเองได้ มีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา และทำให้ศิลปินลงเสียงให้ความสนใจอย่างมาก

"เรายังเชี่ยวชาญในการสร้างเสียงตามที่สั่งให้ทำ ซึ่งมีสำเนียงที่หลากหลายมาก" ศ.พาเทล กล่าว "เราได้ทำเสียงคนข้ามเพศแล้ว เราทำเสียงที่เป็นกลางทางเพศแล้ว...เทคโนโลยีนี้ควรมีเสียงพูดในแบบที่เราทุกคนพูด เราทุกคนต่างก็มีเสียงและสำเนียงที่เป็นเอกลักษณ์"

การโคลนเสียงสามารถใช้ในการแปลคำพูดของนักแสดงเป็นภาษาต่าง ๆ ได้ด้วย ดังนั้นบริษัทผลิตภาพยนตร์ของสหรัฐฯ จะไม่จำเป็นต้องจ้างนักแสดงเพิ่มเพื่อพากย์เสียงในภาพยนตร์เวอร์ชันภาษาต่าง ๆ สำหรับออกฉายในต่างประเทศอีกต่อไป

รีเซมเบิล เอไอ (Resemble AI) บริษัทในแคนาดา บอกว่า บริษัทสามารถเปลี่ยนเสียงโคลนภาษาอังกฤษให้เป็นภาษาอื่น ๆ ได้ 15 ภาษา

โซฮับ อาห์เหม็ด ประธานเจ้าหน้าที่บริหารของรีเซมเบิล เอไอ กล่าวว่า การสร้างสำเนาเสียงที่มีคุณภาพของใครสักคน ซอฟต์แวร์นี้จำเป็นต้องมีเสียงบันทึกการพูดของคนผู้นั้นอย่างน้อย 10 นาที

โซฮัม อาห์เหม็ด

ที่มาของภาพ, Zohaib Ahmed

คำบรรยายภาพ, บริษัทของโซฮับ อาห์เหม็ด สามารถเปลี่ยนเสียงของคนให้เป็นภาษาอื่น ๆ ได้

"ตอนที่ เอไอ เรียนรู้เสียงของคุณ มันเรียนรู้หลายเรื่อง...อย่างน้ำเสียง โทนเสียง และความหนาแน่นของเสียง" เขากล่าว

"แต่มันยังเรียนรู้ลักษณะอื่น ๆ [ของเสียงคน] หลายพันอย่างด้วย ที่เราอาจจะไม่สังเกตเห็น"

แม้ว่าความก้าวหน้าของการโคลนเสียงที่เพิ่มมากขึ้นทำให้มีโอกาสนำไปใช้ในเชิงพาณิชย์ได้อย่างเห็นได้ชัด แต่มันยังทำให้เกิดความกังวลมากขึ้นเช่นกันว่า มันอาจถูกนำไปใช้ในด้านอาชญากรไซเบอร์ เพื่อหลอกคนอื่นว่า อีกคนกำลังพูดคุยอยู่

เช่นเดียวกับคลิปวิดีโอปลอมที่ใช้คอมพิวเตอร์สร้างขึ้น ก็มีการเรียกการโคลนเสียงว่า "ดีปเฟก" (Deepfake) เช่นกัน และเอ็ดดี โบบริตสกี ผู้เชี่ยวชาญด้านความมั่นคงไซเบอร์ กล่าวว่า มี "ความเสี่ยงด้านความปลอดภัยที่สำคัญ" ที่มาพร้อมกับเสียงสังเคราะห์นี้

"ตอนที่มีอีเมลหรือข้อความตัวหนังสือ เป็นที่ทราบกันดีมานานหลายปีแล้วว่า มันค่อนข้างง่ายในการปลอมแปลงเป็นคนอื่น" ผู้บริหารไมเนอร์วา แลบส์ (Minerva Labs) บริษัทของอิสราเอล กล่าว

"แต่จนถึงตอนนี้ การพูดคุยทางโทรศัพท์กับคนที่คุณไว้ใจและรู้จักดี เป็นหนึ่งในวิธีการปกติที่สุดในการตรวจสอบว่า คนคนนั้นคือคนที่คุณรู้จักมักคุ้นจริง ๆ"

นายโบบริตสกี กล่าวว่า ตอนนี้เรื่องนั้นกำลังเปลี่ยนแปลงไปแล้ว "ยกตัวอย่าง ถ้าหัวหน้าโทรศัพท์หาพนักงานขอข้อมูลอ่อนไหว และพนักงานจำเสียงนั้นได้ และตอบรับที่จะทำตามที่ขอในทันที นี่คือเส้นทางการก่ออาชญากรรมไซเบอร์จำนวนมาก"

ความจริงแล้ว วอลล์ สตรีต เจอร์นัล เคยรายงานกรณีเช่นนี้แล้วในปี 2019 โดยมีรายงานว่า ผู้จัดการในสหราชอาณาจักรคนหนึ่ง ได้ถูกหลอกให้โอนเงิน 220,000 ยูโร (ประมาณ 8.47 ล้านบาท) ให้แก่ผู้ที่หลอกลวง ซึ่งใช้การโคลนเสียงเจ้านายชาวเยอรมันของเขาในการหลอก

นายโบบริตสกี กล่าวเพิ่มเติมว่า "จำเป็นต้องมีการเตรียมขั้นตอนต่าง ๆ ในการรับมือกับเทคโนโลยีใหม่และความเสี่ยงที่มาพร้อมกับมัน"

เวนเจอร์ บีต (Venture Beat) เว็บไซต์ข่าวที่รายงานเกี่ยวกับปัญญาประดิษฐ์โดยเฉพาะรายงานว่า อันที่จริงแล้ว บริษัทต่าง ๆ ทั่วโลก กำลังทำเรื่องนี้อยู่

บริษัทเหล่านั้น สามารถตรวจสอบเสียงเพื่อดูได้ว่า เป็นเสียงปลอมหรือไม่ โดยการมองหาสัญญาณผิดปกติหลายอย่าง เช่น การพูดซ้ำ เสียงรบกวนทางดิจิทัล และการใช้วลีหรือคำบางคำ

ขณะที่รัฐบาลต่าง ๆ และหน่วยงานบังคับใช้กฎหมายก็กำลังพิจารณาปัญหานี้เช่นกัน ปีที่แล้ว ยูโรโพล (Europol) หน่วยงานตำรวจสากลในสหภาพยุโรป ขอให้ประเทศสมาชิกลงทุนในเทคโนโลยีต่าง ๆ ที่สามารถตรวจจับดีปเฟกได้ ส่วนในรัฐแคลิฟอร์เนียของสหรัฐฯ ได้ห้ามการใช้เทคโนโลยีนี้ในการหาเสียงทางการเมือง

กลับมาที่รัฐเทกซัส ทิม เฮลเลอร์ บอกว่า ขณะที่เขายังไม่ได้ขายเสียงที่ถูกโคลนขึ้นมาของเขา "ลูกค้า 2-3 ราย ได้แสดงความสนใจแล้ว"

ทิม เฮลเลอร์

ที่มาของภาพ, Tim Heller

คำบรรยายภาพ, ทิม เฮลเลอร์ บอกว่า เขากังวลเรื่องจำนวนค่าจ้างที่เขาจะได้รับจากเสียงโคลนของเขา

แต่เขากลัวไหมว่า ในระยะยาวแล้ว เขาอาจจะเสียงานให้กับเสียงสังเคราะห์ของคนอื่น

"ผมไม่กังวลว่า มันจะทำให้ผมตกงาน" เขากล่าว "ผมเชื่ออย่างแท้จริงว่า มีพื้นที่สำหรับเสียงที่แท้จริงของมนุษย์อยู่เสมอ ประเด็นของการมี 'เสียงพากย์' [เสียงโคลนของเขา] ไม่ใช่การนำมาแทนที่เสียงของผมหรือเสียงของคนอื่น แต่ใช้ในการทำหน้าที่เป็นอุปกรณ์เสริมในธุรกิจของผม"

รีเบกกา เดมอน รองประธานเจ้าหน้าที่บริหารของ สกรีน แอ็กเตอร์ส กิลด์ (Screen Actors Guild) สมาคมนักแสดงสหรัฐฯ กล่าวว่า ปัญหาสำคัญอีกอย่างหนึ่งเกี่ยวกับการโคลนเสียงคือ ศิลปินลงเสียงจะได้รับค่าจ้างที่เหมาะสมหรือไม่

"การโคลนเสียงเป็นอุตสาหกรรมใหม่ที่น่าตื่นเต้นและอาจทำเงินได้มหาศาลสำหรับสมาชิกของเรา" เธอกล่าว "อย่างไรก็ตาม มันเป็นเรื่องสำคัญสำหรับเรามาโดยตลอดว่า นักแสดงเสียงได้รับการชดเชยอย่างเป็นธรรม และสามารถกำหนดเกี่ยวกับนำเสียงของพวกเขาไปใช้อย่างไรได้หรือไม่"

"สำหรับเรื่องนั้น เรากำลังจับตามองการพัฒนาการโคลนเสียงอย่างระมัดระวัง และกำลังร่วมมือกับสมาชิกของเราในการกำหนดวิธีการป้องกันที่จำเป็นต้องนำมาใช้เพื่อที่ใช้เทคโนโลยีทำงานได้ตามศักยภาพของมัน"

นายเฮลเลอร์ กล่าวเพิ่มเติมว่า ปัญหาเกี่ยวกับการกำหนดราคาเสียงโคลนเกิดจากการที่เรื่องนี้เป็นเรื่องใหม่ ยังไม่เคยมีการกำหนดกฎเกณฑ์ใด ๆ มาก่อน

"สิ่งที่สำคัญที่สุด ในความคิดของผม เมื่อพูดถึงเรื่องการตั้งราคาและการเจรจาสัญญา [ในการทำเสียงเทียมของคุณ] คือ การที่คุณไม่ลงนามมอบสิทธิและการใช้ทุกอย่างตลอดชีพ"

รายงานเพิ่มเติมโดย วิลล์ สเมล