Real-Time Voice API

ความก้าวหน้าทางเทคนิค

เชื่อมโยงระบบเก่าและใหม่เข้าด้วยกัน

โมดูลเพิ่มประสิทธิภาพ (optimizer module) ใหม่ล่าสุดของเราได้รับการออกแบบมาเพื่อลดช่องว่างระหว่างระบบจดจำเสียงแบบดั้งเดิมกับการประมวลผลเสียงด้วยโมเดลภาษาขนาดใหญ่ (LLM) โดยใช้เทคโนโลยีที่ทันสมัย ทำให้ระบบสามารถทำงานได้ใกล้เคียงกับการทำงานแบบเรียลไทม์ รองรับการพูดแทรกกลางสาย และจัดการฟังก์ชันการโทรแบบไดนามิกได้อย่างมีประสิทธิภาพ จุดมุ่งหมายหลักคือการรักษาความเร็วและความแม่นยำ แม้ในช่วงที่มีผู้ใช้งานจำนวนมาก

การพัฒนาทางเทคนิคที่สำคัญ

ระบบตรวจจับเสียงสนทนา

เพื่อเข้าใจรูปแบบการสนทนาในโลกจริงอย่างแท้จริง โมดูลนี้สามารถรองรับการพูดแทรก และจัดการช่วงเงียบระหว่างบทสนทนาได้อย่างมีประสิทธิภาพ ช่วยให้การสนทนาไหลลื่นและปรับตัวได้ดี แม้เกิดการหยุดชะงักหรือการขัดจังหวะที่ไม่คาดคิด

ระบบแยกแยะกลุ่มคำ

โมดูลนี้ออกแบบมาเพื่อตรวจจับและประเมินความสมบูรณ์ของข้อความที่สร้างโดยโมเดลภาษาขนาดใหญ่ (LLM)
โดยอ้างอิงจากโครงสร้างประโยคตามธรรมชาติ
ช่วยให้ได้ผลลัพธ์ที่สมดุลระหว่างความเร็วในการตอบสนองและความครบถ้วนของเนื้อหา

ประหยัดต้นทุนด้วยการเพิ่มประสิทธิภาพ

ด้วยการออกแบบโครงสร้างระบบใหม่ทั้งหมด เราสามารถลดต้นทุนการดำเนินงานลงได้ถึง 4 เท่า เมื่อเทียบกับโซลูชันเดิม โดยไม่กระทบต่อประสิทธิภาพหรือคุณภาพของการให้บริการ ที่สำคัญ ระบบยังสามารถปรับขยายได้ง่าย พร้อมรองรับการใช้งานในระดับองค์กรอย่างเต็มรูปแบบ

แผนภาพนี้แสดงภาพรวมของสถาปัตยกรรมของระบบ (System Architecture) ของเรา โดยอธิบายการทำงานของโมดูลเพิ่มประสิทธิภาพ (optimizer module) ที่เชื่อมโยงระบบจดจำเสียงแบบดั้งเดิมเข้ากับความสามารถของโมเดลภาษาขนาดใหญ่ (LLM) เพื่อสามารถให้บริการ API ได้

การนำไปใช้งานจริง

แนวคิดแบบโมดูลาร์

โมดูลของเราถูกออกแบบตามหลักโมดูลาร์ (Modular) ทำให้สามารถผสานเข้ากับระบบที่องค์กรใช้อยู่ได้อย่างราบรื่น จุดเด่นของแนวทางนี้คือการปรับตัวเข้ากับสภาพแวดล้อมที่เปลี่ยนแปลงได้ง่าย และสามารถอัปเกรดเมื่อมีเทคโนโลยีใหม่ ๆ เข้ามาโดยไม่ต้องเปลี่ยนระบบทั้งหมด

กรณีศึกษาความสำเร็จกับระบบ Help Desk

จากการติดตั้งใช้งานร่วมกับทีม Amity Accentix เราได้พิสูจน์ความสามารถทางเทคนิคของระบบ โดยเฉพาะในด้านความเร็วการประมวลผล และการลดต้นทุนที่เห็นได้ชัด ช่วยยกระดับการให้บริการแบบเรียลไทม์ได้อย่างมีประสิทธิภาพ และตอกย้ำความสามารถของโมดูลเราในการปรับใช้ในระดับองค์กรขนาดใหญ่

แนวทางของเรา vs OpenAI Realtime API

เราได้ทำการทดสอบประสิทธิภาพโดยใช้ GPT-4o เป็นตัวตัดสินเพื่อประเมินประสิทธิภาพของ Amity Real-Time Voice API เทียบกับ OpenAI's 4o-mini Realtime API การประเมินมุ่งเน้นที่ปัจจัยสำคัญสองประการ: (1) ความแม่นยำและความเกี่ยวข้องของคำตอบเมื่อเทียบกับคำถามและคำตอบที่คาดหวัง และ (2) เวลาตอบสนองเฉลี่ยเพื่อประเมินประสิทธิภาพ เพื่อให้การเปรียบเทียบเป็นกลาง ทั้งสองโมเดลถูกทดสอบภายใต้การตั้งค่าและคำสั่งเดียวกัน ทำให้สามารถวัดความแม่นยำ ความเกี่ยวข้อง และเวลาตอบสนองภายใต้เงื่อนไขเดียวกันได้

เปรียบเทียบความแม่นยำและความเกี่ยวข้อง (ยิ่งสูงยิ่งดี)

ผลลัพธ์อ้างอิงจากการเปรียบเทียบโดยตรงระหว่างคำตอบจากแต่ละโมเดลกับคำตอบที่คาดหวังในทุกกรณีทดสอบ ผลลัพธ์มีดังนี้:

• Amity Real-Time Voice API: 73.33%
• OpenAI: 26.67%จากผลลัพธ์จะเห็นว่าคำตอบจาก
‍
จากผลลัพธ์จะเห็นว่าคำตอบจาก Amity Real-Time Voice API มีความแม่นยำและตรงกับสิ่งที่คาดหวังมากกว่าถึง 73.33% ในขณะที่คำตอบของ OpenAI มีความแม่นยำและตรงกับสิ่งที่คาดหวังเพียง 26.67% แสดงให้เห็นว่าคำตอบของ Amity Real-Time Voice API สอดคล้องกับคำตอบที่คาดหวังมากกว่า และให้ข้อมูลที่แม่นยำกว่าเมื่อเทียบกับ OpenAI

Accuracy Comparison

การเปรียบเทียบเวลาตอบสนอง (ยิ่งน้อยยิ่งดี)

เรายังได้วิเคราะห์เวลาตอบสนองเฉลี่ยของทั้งสองโมเดล ซึ่งวัดจากช่วงเวลาที่ผู้ใช้พูดจบจนถึงเวลาที่โมเดล AI ส่งโทเค็นแรกกลับมา ผลลัพธ์มีดังนี้:

• Amity Real-Time Voice API เวลาเฉลี่ย: 2.84 วินาที
• OpenAI Realtime API (4o-mini) เวลาเฉลี่ย: 1.36 วินาที

นี่แสดงให้เห็นว่า OpenAI ตอบสนองต่อผู้ใช้เร็วกว่า Amity Real-Time Voice API อย่างน้อย 1 วินาที

Duration Comparison

บทสรุป

จากการทดสอบเปรียบเทียบพบว่า แม้ว่า Amity Real-Time Voice API จะใช้เวลาตอบสนองนานกว่าเล็กน้อยเมื่อเทียบกับ OpenAI’s Real-Time API แต่กลับให้คำตอบที่แม่นยำและเข้าใจบริบทได้ดีกว่าอย่างต่อเนื่องในทางตรงกันข้าม OpenAI แม้จะโดดเด่นเรื่องความเร็ว แต่คำตอบกลับขาดความแม่นยำ และมักจะไม่สามารถจับความคาดหวังจากคำถามได้อย่างลึกซึ้ง จึงสะท้อนให้เห็นว่า ความเร็วอย่างเดียวอาจไม่เพียงพอหากคุณต้องการประสบการณ์สนทนาที่มีคุณภาพ

การพัฒนาในอนาคต

โมดูลตัวเพิ่มประสิทธิภาพ (optimizer module) ล่าสุดของเราไม่เพียงแต่ให้บริการ API เสียงแบบเรียลไทม์ในราคาที่ถูกลง 4 เท่า พร้อมกันนี้ยังช่วยให้ประสบการณ์การสนทนา ลื่นไหลและเป็นธรรมชาติมากยิ่งขึ้น ในอนาคตเรามุ่งพัฒนาระบบรองรับการเรียกใช้ฟังก์ชันให้ดียิ่งขึ้น เพื่อให้ทุกคำสั่งเสียงสามารถกระตุ้นการทำงานอัตโนมัติอัจฉริยะได้ทันที

สิ่งที่น่าจับตารอ

ระบบตรวจจับการพูดแบบเข้าใจความหมาย

ในสถานการณ์การใช้งานจริง การตรวจจับว่า "ผู้ใช้พูดจบแล้ว" ถือเป็นสิ่งสำคัญอย่างมาก ตัวอย่างเช่น หากเสียงของผู้ใช้ลงท้ายด้วยเสียงอย่าง "อืมมม..." หรือ "อ่าาา..." อาจทำให้ระบบตรวจจับเสียงแบบอะคูสติกเข้าใจผิดว่าเป็นการพูดต่อเนื่อง ส่งผลให้ระบบไม่สามารถตอบสนองได้อย่างแม่นยำ

เพื่อแก้ปัญหานี้ เราวางแผนที่จะฝึกและผสาน Small Language Model (SLM) เข้าไว้ในระบบ เพื่อให้สามารถวิเคราะห์เจตนาในการพูดในระดับความหมาย (semantic level) ได้แม่นยำยิ่งขึ้น ซึ่งจะช่วยให้ระบบเข้าใจได้ว่าผู้ใช้พูดจบแล้วจริง ๆ และพร้อมสำหรับการตอบกลับในทันที

การเรียกใช้ฟังก์ชันแบบไดนามิก

การพัฒนาคำสั่งเสียงที่สามารถเชื่อมต่อกับฟังก์ชันต่าง ๆ ได้อย่างราบรื่น ตัวอย่างเช่น เมื่อผู้ใช้กล่าวคำสั่งว่า "สั่งลาเต้ร้อนไซส์กลางจากสตาร์บัคส์" ระบบจะสามารถเรียกใช้ฟังก์ชันที่ได้เตรียมไว้ล่วงหน้า (เช่น API สำหรับสั่งกาแฟ) เพื่อทำการสั่งซื้อให้เสร็จสิ้นในทันที

การทำธุรกรรมที่ราบรื่น

เราได้เพิ่มประสิทธิภาพการจัดการข้อผิดพลาดและสนับสนุนฟังก์ชันหลายขั้นตอนที่สามารถจัดการงานที่ซับซ้อนได้อย่างมีประสิทธิภาพ เช่น การจองเที่ยวบินหรือนัดหมายต่าง ๆ โดยไม่กระทบต่อความลื่นไหลของการสนทนาและการตอบสนองที่รวดเร็ว

การลดความล่าช้าและเพิ่มฟังก์ชันที่มีความซับซ้อนยิ่งขึ้น ทำให้เราสามารถสร้างแอปพลิเคชันองค์กรที่ขับเคลื่อนด้วยเสียงอย่างมีประสิทธิภาพ ซึ่งไม่เพียงแต่ ลดต้นทุน แต่ยังมอบ ประสบการณ์การใช้งานที่ไร้รอยต่อและประทับใจแก่ผู้ใช้