ในโลกดิจิทัลที่เปลี่ยนแปลงอย่างรวดเร็ว คอลเซ็นเตอร์มีบทบาทสำคัญในการสร้างประสบการณ์ที่ดีให้กับลูกค้า แต่การที่พนักงานต้องวิเคราะห์บทสนทนาทั้งหมดเพื่อประเมินผลลัพธ์และอารมณ์ของลูกค้านั้น เป็นงานที่หนักและใช้เวลามาก ซึ่งไม่เพียงแค่เสียเวลา แต่ยังมีความเสี่ยงต่อความผิดพลาดและการตีความที่อาจมีอคติส่วนบุคคล เมื่อธุรกิจต้องการเพิ่มประสิทธิภาพ จึงจำเป็นต้องมีระบบที่เชื่อถือได้มาช่วยลดภาระงานเหล่านี้ และนี่คือที่มาของการพัฒนาโซลูชั่น AI แบบอัตโนมัติของเรา
เพื่อแก้ไขความท้าทายในการลดภาระงานของมนุษย์ เราแก้ปัญหานี้ด้วยนวัตกรรม AI ในการวิเคราะห์บทสนทนาอัตโนมัติ ด้วยการแบ่งไฟล์เสียงออกเป็นส่วนๆ ตามช่วงเสียงและวิเคราะห์อารมณ์ในแต่ละช่วง ทำให้เห็นภาพรวมอารมณ์ของลูกค้าได้ชัดเจนกว่าเดิม วิธีนี้ไม่เพียงให้ความเข้าใจที่ลึกซึ้ง แต่ยังเพิ่มความแม่นยำในการวิเคราะห์ด้วยการจัดการกับข้อมูลแต่ละส่วนได้อย่างมีประสิทธิภาพ นอกจากนี้ ระบบยังสามารถทำงานหลายส่วนพร้อมกันได้ ซึ่งช่วยเพิ่มประสิทธิภาพและประสิทธิผลของการวิเคราะห์อารมณ์
(โครงสร้างระบบวิเคราะห์อารมณ์จากเสียงพูดของ Amity)
งานวิจัยของเราประกอบด้วยการทดลองหลายรอบเพื่อปรับปรุงและทดสอบโซลูชันที่นำเสนอ ในช่วงแรก เราใช้ชุดข้อมูลบทสนทนาเสียง 14 รายการที่มีการติดป้ายอารมณ์ 30 แบบ เพื่อประเมินโมเดลตรวจจับอารมณ์จากเสียงแบบดั้งเดิม ซึ่งได้ความแม่นยำเพียง 32% กับโมเดลยอดนิยม "speechbrain/emotion-recognition-wav2vec2-IEMOCAP"
ในการปรับปรุงครั้งสำคัญนั้น เราปรับใช้โครงสร้างระบบที่ซับซ้อนมากขึ้น โดยแยกวิเคราะห์ข้อมูลอารมณ์จากเสียงและข้อความ พร้อมทั้งจัดกลุ่มอารมณ์ของลูกค้าเป็น 5 ประเภทหลักได้แก่ ความสับสน ความโกรธ ความสุข ความเศร้า และความตื่นเต้น การจัดหมวดหมู่นี้ช่วยให้เข้าใจความรู้สึกของลูกค้าได้ชัดเจนและนำไปใช้งานได้จริง เป็นส่วนช่วยในการพัฒนาระบบให้ดียิ่งขึ้น ความแม่นยำเพิ่มขึ้นอย่างมีนัยสำคัญถึง 85% ด้วยโมเดล Mix-Emo-Detector-EN ของเรา
แต่เมื่อเราขยายการทดสอบเป็น 200 ตัวอย่าง ความแม่นยำกลับลดลงเหลือ 64% ซึ่งนำไปสู่การวิเคราะห์ลักษณะข้อมูลเพิ่มเติม และพบว่าการใช้แค่ข้อมูลอารมณ์อย่างเดียวไม่เพียงพอสำหรับการการจำแนกประเภท
(การกระจายตัวของข้อมูลอารมณ์ต่างๆ โดยพิจารณาจากข้อมูลอารมณ์ทางตัวอักษรและเสียงเท่านั้น)
การวิจัยเปิดเผยปัญหาเกี่ยวกับการแสดงคุณลักษณะของข้อมูล ทำให้เราต้องค้นหาโมเดลที่ผ่านการเทรนมาแล้วสำหรับการรวมข้อมูลเสียงและข้อความ (อ้างอิง: https://emo-box.github.io/leaderboard1.html) เพื่อให้ได้ผลลัพธ์ที่เหมาะสมกับกรณีการใช้งานของเรา
(การกระจายตัวของข้อมูลอารมณ์ต่างๆ โดยอ้างอิงจากการฝังข้อมูลตัวอักษรและเสียง)
การตรวจสอบเพิ่มเติมเกี่ยวข้องกับการฝึกฝนโมเดลแบบ feed-forward อย่างง่ายบนชุดข้อมูลทั้งส่วนตัวและสาธารณะที่ครอบคลุมอารมณ์หลักๆ เพื่อให้มั่นใจว่าสามารถนำไปใช้ได้อย่างทั่วถึง ซึ่งให้ผลลัพธ์ดังต่อไปนี้:
Best WA: 71.51% | Best UA: 70.08% | Best WF1: 72.12%
ผลการประเมินชี้ให้เห็นถึงการพัฒนาที่โดดเด่น ส่งผลให้แนวทางของเราขึ้นเป็นอันดับที่ 2 ของ Emo-Box โดยที่โมเดลของเรามีขนาดเล็กกว่าคู่แข่งหลักถึง 70%
(Emo-Box Leaderboard, Last updated: 2025-02-26)
การนำโซลูชัน AI มาวิเคราะห์อารมณ์จากเสียงสร้างประโยชน์หลายด้าน ช่วยลดงานที่ต้องทำด้วยมือของพนักงานและทำให้พวกเขาสามารถโฟกัสกับงานเชิงกลยุทธ์แทนการตรวจสอบทั่วไป นอกจากจะเพิ่มประสิทธิภาพการใช้ทรัพยากรแล้ว ยังช่วยยกระดับผลผลิตขององค์กรโดยรวมอีกด้วย ความแม่นยำในการวิเคราะห์อารมณ์ที่สูงขึ้นยังทำให้ผลลัพธ์มีความน่าเชื่อถือและสม่ำเสมอ ส่งผลให้ลูกค้าได้รับบริการที่เข้าใจและตอบสนองความต้องการได้ดียิ่งขึ้น
Amity Voice Emotion Analysis ถือเป็นก้าวสำคัญในการทำให้การวิเคราะห์ข้อมูลของคอลเซ็นเตอร์เป็นงานอัตโนมัติได้ ด้วยโมเดล AI ขั้นสูงที่ลดการพึ่งพานักวิเคราะห์มนุษย์ ธุรกิจสามารถรับรู้ความรู้สึกของลูกค้าได้เร็วขึ้น แม่นยำขึ้น และมีมาตรฐานมากขึ้น นวัตกรรมนี้มีศักยภาพในการเปลี่ยนรูปแบบการโต้ตอบกับลูกค้า นำไปสู่ประสบการณ์ที่ดีขึ้นและการดำเนินงานที่มีประสิทธิภาพสูงขึ้น ช่วยให้ธุรกิจพร้อมรับมือกับความท้าทายในตลาดที่เปลี่ยนแปลงอย่างรวดเร็วรวมถึงการแข่งขันที่เข้มข้นขึ้นในปัจจุบัน