AI-Powered Call Center Evaluation: การประเมินคะแนนด้วย Amity Voice Auto-QA

ความท้าทายในปัจจุบันของการประเมินคะแนนด้วยตนเอง

ในกระบวนการ call centers การประเมินคุณภาพของการโทรเป็นสิ่งสำคัญและเต็มไปด้วยความท้าทาย ซึ่งเจ้าหน้าที่ต้องรับมือกับการติดต่อสื่อสารมากมายในแต่ละวัน และในแต่ละกรณีก็มีข้อกังวลและอารมณ์ของลูกค้าที่แตกต่างกัน ความซับซ้อนนี้ทำให้การประเมินด้วยตนเองไม่เพียงแต่ต้องใช้ความพยายามสูง แต่ยังอาจผิดพลาดได้ด้วย ซึงหลายครั้งผู้ประเมินมักจะประสบปัญหาในการรักษาความสม่ำเสมอของการตรวจสอบ เนื่องจากอคติส่วนบุคคลและความเหนื่อยล้าสามารถส่งผลต่อการให้คะแนนได้ นอกจากนี้ ปริมาณการโทรที่มากมายอาจทับถมบุคลากร ทำให้เกิดการค้างงานและความล่าช้า ซึ่งส่งผลกระทบทั้งต่อข้อเสนอแนะสำหรับเจ้าหน้าที่และความพึงพอใจของลูกค้า

แนวทางแก้ปัญหาที่เสนอ

เพื่อแก้ไขความท้าทายเหล่านี้ เราได้พัฒนา AI solution นวัตกรรมใหม่ที่เรียกว่า Amity Voice AutoQA ซึ่งออกแบบมาเพื่อทำให้กระบวนการการประกันคุณภาพเป็นอัตโนมัติและมีประสิทธิภาพมากขึ้น โมเดลนี้ใช้ความสามารถของ AI ขั้นสูงในการประเมินบทสนทนาและให้คะแนนที่เชื่อถือได้ การประเมินครอบคลุมหมวดหมู่ที่สำคัญ เช่น การจัดการสายโทรศัพท์และการปิดสาย พร้อมกับคำถามเฉพาะทาง เช่น "การสนทนามีความน่าสนใจเพียงใด" หรือ "พฤติกรรมทั่วไปของเจ้าหน้าที่เป็นอย่างไร?"ผลลัพธ์ที่สำคัญอย่างหนึ่งของระบบนี้คือ AI Score ซึ่งมีตั้งแต่ 0 ถึง 5 โดยที่ 0 หมายถึงการปฏิบัติที่แย่มาก และ 5 หมายถึงการปฏิบัติที่เป็นเลิศ โดยค่าคะแนนนี้ออกแบบมาให้ชัดเจนและสอดคล้องใกล้เคียงกับการประเมินแบบมนุษย์ วิธีการของเราเป็นการต่อยอดจากงานวิจัยที่มีอยู่ LLM-as-judge methodology ที่กล่าวถึงในงานวิชาการ [1] โดยได้มีการปรับ Prompt เพิ่มเติมเพื่อให้สามารถตัดสินหรือประเมินคะแนนตามเกณฑ์เฉพาะของชุดทดสอบ

การประเมิน AI เทียบกับการประเมินมนุษย์

การนำ Amity Voice Auto-QA มาใช้ได้แสดงผลลัพธ์ที่น่าสนใจเมื่อเทียกับการประเมินของมนุษย์ จากการประเมินทั้งหมด 213 ครั้ง พบว่า 74.65% ไม่มีความแตกต่างระหว่างคะแนน AI และคะแนนมนุษย์ 24.41% แตกต่างเพียงหนึ่งคะแนน ขณะที่ความแตกต่างสองคะแนนเกิดขึ้นน้อยกว่า 1% ของการประเมิน ที่สำคัญคือความแตกต่างสามคะแนนขึ้นไปไม่เกิดขึ้นเลย แสดงให้เห็นถึงความแม่นยำของ AI ในการสะท้อนการตัดสินของมนุษย์

No Diff: ส่วนนี้แสดงสัดส่วนของการประเมินที่ไม่มีความแตกต่างระหว่างคะแนนมนุษย์และ AI
Diff -1:
ที่คะแนนมนุษย์น้อยกว่าคะแนน AI หนึ่งคะแนน
Diff +1:
ที่คะแนนมนุษย์มากกว่าคะแนน AI หนึ่งคะแนน
Diff -2:
ที่คะแนนมนุษย์น้อยกว่าคะแนน AI สองคะแนน
Diff +2:
ที่คะแนนมนุษย์มากกว่าคะแนน AI สองคะแนน
Diff -3:
ที่คะแนนมนุษย์น้อยกว่าคะแนน AI สามคะแนน
Diff +3:
ที่คะแนนมนุษย์มากกว่าคะแนน AI สามคะแนน

ลดกระบวนการตรวจสอบด้วยมือเพื่อการประเมินที่มีประสิทธิภาพ

การทำให้การประเมินและการให้คะแนนของการโทรเป็นอัตโนมัติ Amity Voice Auto-QA จะช่วยลดภาระงานของทีมได้เป็นอย่างมาก การทำงานอัตโนมัตินี้อนุญาตให้ผู้ใช้งานทำการตรวจสอบเบื้องต้นได้อย่างรวดเร็วและแม่นยำซึ่งสอดคล้องใกล้เคียงกับการทำงานของมนุษย์ และช่วยให้องค์กรสามารถตรวจสอบคุณภาพการทำงานได้อย่างสม่ำเสมอ มีระยะเวลาการประมวลผลที่รวดเร็ว ส่งผลให้ประสิทธิภาพและคุณภาพบริการของ call centers โดยรวมดีขึ้น

References

Gu, Jiawei, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Yuanzhuo Wang, and Jian Guo. "A Survey on LLM-as-a-Judge." arXiv, November 23, 2024. https://doi.org/10.48550/arXiv.2411.15594.