Amity Speech Emotion Recognition

เทคโนโลยีวิเคราะห์อารมณ์จากเสียงพูดโดย Amity สำหรับคอลเซ็นเตอร์
AmityEko

ความท้าทายของคอลเซ็นเตอร์

ในโลกดิจิทัลที่เปลี่ยนแปลงอย่างรวดเร็ว คอลเซ็นเตอร์มีบทบาทสำคัญในการสร้างประสบการณ์ที่ดีให้กับลูกค้า แต่การที่พนักงานต้องวิเคราะห์บทสนทนาทั้งหมดเพื่อประเมินผลลัพธ์และอารมณ์ของลูกค้านั้น เป็นงานที่หนักและใช้เวลามาก ซึ่งไม่เพียงแค่เสียเวลา แต่ยังมีความเสี่ยงต่อความผิดพลาดและการตีความที่อาจมีอคติส่วนบุคคล เมื่อธุรกิจต้องการเพิ่มประสิทธิภาพ จึงจำเป็นต้องมีระบบที่เชื่อถือได้มาช่วยลดภาระงานเหล่านี้ และนี่คือที่มาของการพัฒนาโซลูชั่น AI แบบอัตโนมัติของเรา

AI อัจฉริยะเพื่อการวิเคราะห์อารมณ์ที่แม่นยำยิ่งขึ้น

เพื่อแก้ไขความท้าทายในการลดภาระงานของมนุษย์ เราแก้ปัญหานี้ด้วยนวัตกรรม AI ในการวิเคราะห์บทสนทนาอัตโนมัติ ด้วยการแบ่งไฟล์เสียงออกเป็นส่วนๆ ตามช่วงเสียงและวิเคราะห์อารมณ์ในแต่ละช่วง ทำให้เห็นภาพรวมอารมณ์ของลูกค้าได้ชัดเจนกว่าเดิม วิธีนี้ไม่เพียงให้ความเข้าใจที่ลึกซึ้ง แต่ยังเพิ่มความแม่นยำในการวิเคราะห์ด้วยการจัดการกับข้อมูลแต่ละส่วนได้อย่างมีประสิทธิภาพ นอกจากนี้ ระบบยังสามารถทำงานหลายส่วนพร้อมกันได้ ซึ่งช่วยเพิ่มประสิทธิภาพและประสิทธิผลของการวิเคราะห์อารมณ์

(โครงสร้างระบบวิเคราะห์อารมณ์จากเสียงพูดของ Amity)

การประเมินผลทดลองและผลลัพธ์ที่สร้างความก้าวหน้า

งานวิจัยของเราประกอบด้วยการทดลองหลายรอบเพื่อปรับปรุงและทดสอบโซลูชันที่นำเสนอ ในช่วงแรก เราใช้ชุดข้อมูลบทสนทนาเสียง 14 รายการที่มีการติดป้ายอารมณ์ 30 แบบ เพื่อประเมินโมเดลตรวจจับอารมณ์จากเสียงแบบดั้งเดิม ซึ่งได้ความแม่นยำเพียง 32% กับโมเดลยอดนิยม "speechbrain/emotion-recognition-wav2vec2-IEMOCAP"

ในการปรับปรุงครั้งสำคัญนั้น เราปรับใช้โครงสร้างระบบที่ซับซ้อนมากขึ้น โดยแยกวิเคราะห์ข้อมูลอารมณ์จากเสียงและข้อความ พร้อมทั้งจัดกลุ่มอารมณ์ของลูกค้าเป็น 5 ประเภทหลักได้แก่ ความสับสน ความโกรธ ความสุข ความเศร้า และความตื่นเต้น การจัดหมวดหมู่นี้ช่วยให้เข้าใจความรู้สึกของลูกค้าได้ชัดเจนและนำไปใช้งานได้จริง เป็นส่วนช่วยในการพัฒนาระบบให้ดียิ่งขึ้น ความแม่นยำเพิ่มขึ้นอย่างมีนัยสำคัญถึง 85% ด้วยโมเดล Mix-Emo-Detector-EN ของเรา

แต่เมื่อเราขยายการทดสอบเป็น 200 ตัวอย่าง ความแม่นยำกลับลดลงเหลือ 64% ซึ่งนำไปสู่การวิเคราะห์ลักษณะข้อมูลเพิ่มเติม และพบว่าการใช้แค่ข้อมูลอารมณ์อย่างเดียวไม่เพียงพอสำหรับการการจำแนกประเภท

(การกระจายตัวของข้อมูลอารมณ์ต่างๆ โดยพิจารณาจากข้อมูลอารมณ์ทางตัวอักษรและเสียงเท่านั้น)

การวิจัยเปิดเผยปัญหาเกี่ยวกับการแสดงคุณลักษณะของข้อมูล ทำให้เราต้องค้นหาโมเดลที่ผ่านการเทรนมาแล้วสำหรับการรวมข้อมูลเสียงและข้อความ (อ้างอิง: https://emo-box.github.io/leaderboard1.html) เพื่อให้ได้ผลลัพธ์ที่เหมาะสมกับกรณีการใช้งานของเรา

(การกระจายตัวของข้อมูลอารมณ์ต่างๆ โดยอ้างอิงจากการฝังข้อมูลตัวอักษรและเสียง)

การตรวจสอบเพิ่มเติมเกี่ยวข้องกับการฝึกฝนโมเดลแบบ feed-forward อย่างง่ายบนชุดข้อมูลทั้งส่วนตัวและสาธารณะที่ครอบคลุมอารมณ์หลักๆ เพื่อให้มั่นใจว่าสามารถนำไปใช้ได้อย่างทั่วถึง ซึ่งให้ผลลัพธ์ดังต่อไปนี้:

ชุดข้อมูลส่วนตัว (บทสนทนาจากคอลเซ็นเตอร์)

ชุดข้อมูลสาธารณะ (IEMOCAP)

Best WA: 71.51%   |   Best UA: 70.08%   |   Best WF1: 72.12%

ผลการประเมินชี้ให้เห็นถึงการพัฒนาที่โดดเด่น ส่งผลให้แนวทางของเราขึ้นเป็นอันดับที่ 2 ของ Emo-Box โดยที่โมเดลของเรามีขนาดเล็กกว่าคู่แข่งหลักถึง 70%

(Emo-Box Leaderboard, Last updated: 2025-02-26)

ประโยชน์ของใช้ AI วิเคราะห์อารมณ์อัตโนมัติ

การนำโซลูชัน AI มาวิเคราะห์อารมณ์จากเสียงสร้างประโยชน์หลายด้าน ช่วยลดงานที่ต้องทำด้วยมือของพนักงานและทำให้พวกเขาสามารถโฟกัสกับงานเชิงกลยุทธ์แทนการตรวจสอบทั่วไป นอกจากจะเพิ่มประสิทธิภาพการใช้ทรัพยากรแล้ว ยังช่วยยกระดับผลผลิตขององค์กรโดยรวมอีกด้วย ความแม่นยำในการวิเคราะห์อารมณ์ที่สูงขึ้นยังทำให้ผลลัพธ์มีความน่าเชื่อถือและสม่ำเสมอ ส่งผลให้ลูกค้าได้รับบริการที่เข้าใจและตอบสนองความต้องการได้ดียิ่งขึ้น

ผลกระทบและทิศทางในอนาคต

Amity Voice Emotion Analysis ถือเป็นก้าวสำคัญในการทำให้การวิเคราะห์ข้อมูลของคอลเซ็นเตอร์เป็นงานอัตโนมัติได้ ด้วยโมเดล AI ขั้นสูงที่ลดการพึ่งพานักวิเคราะห์มนุษย์ ธุรกิจสามารถรับรู้ความรู้สึกของลูกค้าได้เร็วขึ้น แม่นยำขึ้น และมีมาตรฐานมากขึ้น นวัตกรรมนี้มีศักยภาพในการเปลี่ยนรูปแบบการโต้ตอบกับลูกค้า นำไปสู่ประสบการณ์ที่ดีขึ้นและการดำเนินงานที่มีประสิทธิภาพสูงขึ้น ช่วยให้ธุรกิจพร้อมรับมือกับความท้าทายในตลาดที่เปลี่ยนแปลงอย่างรวดเร็วรวมถึงการแข่งขันที่เข้มข้นขึ้นในปัจจุบัน