รู้หรือไม่ว่าข้อมูลจาก AI หรือ Algorithm ก็มีความลำเอียง

ดูเหมือนว่าในยุคนี้เรามีหลายสิ่งหลายอย่างที่ต้องพึ่งพา AI ในการประมวลผล แทบจะทุกวงการใช้ AI และสูตรการประมวลผลหรือที่เราเรียกว่า Algorithm (มูลฐานของ Machine Learning) เข้ามาช่วยทำงาน โดยเฉพาะอย่างยิ่งงานที่ต้องอาศัยข้อมูลจำนวนมหาศาล เราจะแน่ใจได้อย่างไรว่ารายงานที่เราได้มีความแม่นยำถูกต้องปราศจากความลำเอียง (Bias) เพียงเพราะข้อมูลเหล่านั้นถูกประมวลโดยคอมพิวเตอร์ มีรายงานมากมายที่บอกว่าข้อมูลที่ได้จาก AI ไม่ได้ถูกต้องเสมอไปแถมยังมีความไม่เป็นธรรม และหลายๆครั้งก็เลือกปฏิบัติ เช่น การตัดสินคดีความ การคัดเลือกเรซูเม่ การให้สิทธิ์ที่แตกต่างกันสำหรับลูกค้า ไปจนถึง Siri และ Alexa ที่ฟังเสียงสำเนียงชาติอื่นไม่ออก ฯลฯ จริงหรือไม่ที่ผลลัพธ์จาก AI เที่ยงตรงเสมอ? มีความเป็นไปได้หรือไม่ว่า AI เองก็สามารถให้ผลลัพธ์ที่ไม่เป็นธรรมได้?

เราอยากให้คุณลองพิจารณาอย่างนี้ค่ะ ข้อมูลที่ได้จาก AI เกิดจาก Data Scientist และผู้พัฒนา AI + Algorithm ทำงานร่วมกัน โดยที่คน 2 กลุ่มนี้เป็นผู้ที่มีความสามารถและมีความเชี่ยวชาญที่กระจุกตัวทำงานอยู่ด้วยกัน ถามว่าคนกลุ่มนี้สามารถเป็นตัวแทนส่วนใหญ่ของสังคมได้หรือไม่? คำตอบคือ ไม่ พวกเขาเป็นภาพสะท้อนของผู้พัฒนาว่า พวกเขาเห็นอะไรสำคัญหรือไม่สำคัญ ข้อมูลชุดไหนควรถูกนำมาใช้ ฉะนั้นเป็นไปได้ว่า AI อาจไม่ได้ทำงานอย่างเที่ยงตรงโดยปราศจากความลำเอียงหากมันยังถูกสร้างโดยมนุษย์

 

ข้อมูลลำเอียงจาก AI เกิดขึ้นได้อย่างไร

สามขั้นตอนสำคัญในการทำงานกับ AI เราทำอะไรกับมันบ้าง? มีปัญหาอะไรซ่อนอยู่ในขั้นตอนการทำงาน?

 

ขั้นตอนที่ 1การกำหนดกรอบปัญหา

ในการประมวลผลเพื่อสิ่งใดสิ่งหนึ่งผ่านระบบคอมพิวเตอร์ อย่างแรกที่ Data Scientist จำเป็นต้องทำ คือการสร้างแบบการเรียนรู้สำหรับ deep learning เพื่อให้บรรลุวัตถุประสงค์ที่ต้องการ ตัวอย่างเช่น บริษัทบัตรเครดิตอาจต้องการคาดการณ์ความน่าเชื่อถือของลูกค้า แต่ “ความน่าเชื่อถือ” หรือ “creditworthiness” ค่อนข้างเป็นนามธรรมในการกำหนด จึงต้องแปลงเป็นสิ่งที่จะสามารถนำมาคิดคำนวณได้ บริษัทจะต้องนำมาพิจารณาว่า ความน่าเชื่อถือนั้น หมายถึงการเพิ่มผลกำไรหรือเพิ่มจำนวนสินเชื่อที่ได้รับชำระคืนสูงสุด ก็จะกำหนดความน่าเชื่อถือออกมาคำนวณได้ภายใต้บริบทของเป้าหมายนั้น

แต่ปัญหาคือ การตัดสินใจว่าจะใช้อะไรในการกำหนดเพื่อนำมาคิดคำนวณ ทำมาเพื่อหลากหลายเหตุผลทางธุรกิจโดยไม่ได้คำนึงถึงผลกระทบที่อาจเกิดจากความไม่เป็นธรรมและการเลือกปฎิบัติ จึงมีความเป็นไปได้ที่สิ่งนี้จะกลายเป็นส่วนหนึ่งที่ระบุพฤติกรรมของลูกค้าบางคนเพื่อจัดประเภท จากตัวอย่างนี้หาก Algorithm ค้นพบว่าการกำหนดความสามารถในการชำระสินเชื่อสูงสุดคือวิธีที่มีประสิทธิภาพในการเพิ่มผลกำไร มันก็ค้นหาแต่คนกลุ่มนี้ แม้ว่าอาจเกิดการจัดประเภทพฤติกรรมของลูกค้าบางอย่างจะไม่ได้เป็นความตั้งใจของบริษัทก็ตาม

 

เมื่อเราป้อนคำสั่งอะไรลงไป เครื่องจะทำตามคำสั่ง และประมวลผลออกมาตามรูปแบบของการคิดคำนวณหรือสถิติ เพื่อให้ได้ผลตามเป้าหมาย แต่สิ่งนี้อาจก่อให้เกิดความไม่เป็นธรรมในข้อมูลบางประเภท เกิดการกีดกัน และการจัดประเภทของบางสิ่งบางอย่างที่อาจแฝงการเลือกปฏิบัติ แม้ว่าปลายทางแล้วเราไม่ได้ต้องการผลข้างเคียงที่อาจเกิดขึ้นในรูปแบบนี้

 

ขั้นตอนที่ 2การรวบรวมข้อมูล

มีความเป็นไปได้ที่อคติเกิดขึ้นในช่วงป้อนข้อมูลเพื่อการเรียนรู้ แม้ว่าตัวข้อมูลที่คุณรวบรวมมาไม่ได้เป็นตัวแทนของความเป็นจริงที่สะท้อนให้เห็นถึงความลำเอียงที่มีอยู่ แต่ Bias หรือ ความลำเอียง ก็เกิดขึ้นได้อยู่ดี

กรณีที่บอกว่าไม่ได้เป็นความจริงทั้งหมด แต่เป็นเพียงตัวแทนของกลุ่มที่เราเก็บข้อมูลมา เช่น หาก Algorithm ถูกป้อนข้อมูลและภาพถ่ายของใบหน้าที่มีผิวขาวมากกว่าใบหน้าที่มีผิวดำ ระบบการจดจำใบหน้าของผิวขาวจะเรียนรู้ได้ดีกว่า มีข้อมูลของคนผิวขาวมากว่า ฉะนั้นจากการป้อนข้อมูลชุดนี้เป็นไปได้ว่าปลายทางอาจเอื้อให้คนผิวขาวมากกว่าคนผิวดำ

กรณีต่อมาคือ ข้อมูลที่มีอยู่ไม่เป็นธรรมมาตั้งแต่แรก ตัวอย่างเช่น เคยเกิดกรณีที่เครื่องมือการสรรหาบุคลากรภายในของบริษัท Amazon คัดแยกใบสมัครงานของผู้สมัครหญิงออกไป เพราะได้รับการข้อมูลเกี่ยวกับการตัดสินใจจ้างงานในอดีตที่แสดงให้เห็นอย่างชัดเจนว่า มีการจ้างงานผู้ชายมากกว่าผู้หญิง เครื่องจึงเรียนรู้ที่จะทำเช่นเดียวกันกับที่เคยเกิดมาในอดีต ถือเป็นการผลิตซ้ำความผิดพลาดจากการนำข้อมูลในอดีตที่มีความลำเอียงมาใช้เพื่อเทรน AI (หรือ Machine Learning)

อาจสรุปได้ว่าข้อมูลสัมพันธ์กับจำนวนและการตั้งค่าทำงานของเครื่อง มีความเป็นไปได้ว่ายิ่งเครื่องได้รับข้อมูลมามากเท่าไหร่จะประมวลผลตามสถิติจริงที่เกิดขึ้น และให้ความหมายหรือให้ค่ากับข้อมูลที่ได้รับการเรียนรู้เป็นพิเศษ

 

ขั้นตอนที่ 3ช่วงการจัดเตรียมข้อมูล

สุดท้ายแล้วมีความเป็นไปได้ที่ช่วงการเตรียมข้อมูลนำไปสู่ความลำเอียง ขั้นตอนที่ Data Scientist และผู้พัฒนา AI คัดเลือกคุณลักษณะที่ต้องการให้ Algorithm พิจารณา (สิ่งนี้ไม่ต้องสับสนกับขั้นตอนการกำหนดกรอบปัญหา ที่คุณสามารถใช้คุณลักษณะเดียวกันเพื่อใช้เทรนแบบจำลองสำหรับเป้าหมายที่แตกต่างกันมากๆ หรือใช้คุณลักษณะที่แตกต่างกันมากๆในการเทรนแบบจำลองสำหรับเป้าหมายเดียวกัน) ในกรณีของการสร้างแบบจำลอง “คุณลักษณะ” ของบริษัทบัตรเครดิต อาจเป็นอายุ รายได้ หรือจำนวนสินเชื่อที่ชำระแล้วของลูกค้า ในกรณีของเครื่องมือการสรรหาบุคลากรของ Amazon “คุณลักษณะ” อาจเป็นเพศของผู้สมัคร ระดับการศึกษา หรือประสบการณ์ แต่ปัญหาก็คือ การเลือกคุณลักษณะที่ต้องพิจารณาหรือเพิกเฉยการพิจารณาอาจส่งผลต่อความแม่นยำในการคาดการณ์ของแบบจำลอง ในขณะที่ผลกระทบต่อความแม่นยำนั้นง่ายในการวัด แต่ผลกระทบที่มีต่ออคติของแบบจำลองแทบวัดไม่ได้เลย เมื่อใส่ข้อมูลที่กำหนดคุณลักษณะบางอย่างที่ใช้ในการฝึก AI อาจแฝงอคติทางเชื้อชาติ เพศ ไปโดยปริยาย

 

เห็นมั้ยล่ะคะว่า แท้จริงแล้ว AI หรือ Algorithm ไม่ได้ลำเอียง แต่มาจากข้อมูลที่มนุษย์ป้อนเข้าระบบและเทรนเครื่องให้เรียนรู้ข้อมูลที่เป็นตัวแทนของสิ่งที่เราต้องการประมวลผลเท่านั้น มีความเป็นไปได้อีกมากที่ข้อมูลเหล่านั้นไม่สามารถเป็นตัวแทนของการเรียนรู้ทั้งหมดได้ เราจะแก้ไขปัญหาเหล่านี้ได้อย่างไร อะไรคือความท้าทายในการแก้ไข อ่านต่อบทความหน้า 4 ความท้าทายที่ถือว่ายากในการลดอคติจาก AI

 

อ้างอิงจาก

  1. technologyreview.com

https://www.technologyreview.com/s/612876/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/

  1. strategy-business.com

https://www.strategy-business.com/article/What-is-fair-when-it-comes-to-AI-bias?gko=827c0

  1. zdnet.com

https://www.zdnet.com/article/what-is-bias-in-ai-really-and-why-cant-ai-neutralize-it/

  1. techsauce.co

https://techsauce.co/tech-and-biz/is-ai-biased-really-a-thing-and-how-to-tackle-it

Tags

What do you think?

Related articles