Speech Recognition กับสมองเราเหมือนกันตรงไหน?
ระบบ Speech Recognition อาจจะประมวลผลคำพูด (Speech Processing) ได้เก่งจริงแต่ก็ยังเป็นที่สองรองจากสมองมนุษย์
มนุษย์เรามักจะมองหารูปแบบและลักษณะร่วมในพฤติกรรมของบุคคลนั้นๆ
ไม่เชื่อลองถามนักจิตวิทยาดูสิ
เหตุผลนี้เองที่แสดงให้เห็นว่าปัญญาประดิษฐ์หรือ AI เรียนรู้จากมนุษย์ โดยเฉพาะ Speech Recognition (เทคโนโลยีรู้จำเสียงพูด) ที่มีวิธีการเข้าใจหรือตีความภาษาพูดเหมือนกับสมองของเรา ซึ่งเป็นอวัยวะที่ซับซ้อนและเป็นศูนย์กลางของระบบประสาทส่วนกลาง
เรามาเริ่มเจาะลึกกันซักหน่อยดีกว่า
Speech Recognition (เทคโนโลยีรู้จำเสียงพูด) หรือ Automatic Speech Recognition or ASR (ระบบรับรู้เสียงอัตโนมัติ) เป็นเทคโนโลยีที่แปลงคำพูดหรือภาษาพูดของมนุษย์เป็นข้อความเขียน กระบวนการดังกล่าวต้องใช้ทักษะด้านวิทยาการคอมพิวเตอร์ ภาษาศาสตร์ และวิศวกรรมคอมพิวเตอร์เพื่อถอดและแปลความหมาย
การรู้จำเสียง (Voice Recognition) ซึ่งคนมักเข้าใจผิดว่าเป็นเทคโนโลยีรู้จำเสียงพูด เป็นเทคโนโลยีที่สามารถรู้จำและระบุเสียงของบุคคลใดบุคคลหนึ่งโดยใช้ทักษะสาขาดังกล่าวที่ใกล้เคียงกัน
6 ฟังก์ชันที่ระบบเทคโนโลยีรู้จำเสียงพูดและสมองมนุษย์มีร่วมกัน
1. การจดจำรูปแบบ (Pattern Recognition)
ทั้งระบบเทคโนโลยีรู้จำเสียงพูดและสมองมนุษย์ต่างอาศัยการจดจำแพทเทิร์น ปกติแล้ว Speech Recognition ต้องทำการวิเคราะห์ Acoustic pattern ซึ่งเกี่ยวข้องกับสัญญาณเสียงพูดและลักษณะทางภาษาเช่น สูงต่ำของเสียง ความเข้มของเสียง และระยะเวลาของเสียง
สมองมนุษย์ยังจดจำรูปแบบคำพูดได้ดีเยี่ยม ไม่ว่าจะเป็นจากลักษณะบุคคลหรือโครงสร้างทางภาษา ทำให้เราเข้าใจและตีความภาษาได้
2. การสกัดคุณลักษณะ (Feature Extraction)
ทั้งSpeech Recognition และสมองมนุษย์สกัดลักษณะที่เกี่ยวข้องดังกล่าวจากสัญญาณนำเข้า ในด้านซอฟต์แวร์การรับรู้เสียง การสกัดคุณลักษณะดังกล่าวเกี่ยวข้องกับการสกัดสัญญาณเสียงพูดเช่น ความสูงต่ำของเสียง ความเข้มของเสียง และระยะเวลา ซึ่งไม่ต่างจากระบบกรองเสียงของมนุษย์ที่สามารถสกัดลักษณะเหล่านี้เพื่อเข้าใจภาษาที่พูดได้
3. การเข้าใจบริบท (Contextual Understanding)
Speech Recognition รับรู้และเข้าใจบริบทคล้ายกับสมองมนุษย์ อธิบายง่ายๆ ก็คือโปรแกรมมักเข้าใจบริบทภาษา (Context) ผ่านโมเดลภาษา (Language model) และขอบเขตของบริบทภาษา (Context window) ในขณะที่สมองมนุษย์อิงข้อมูลจากบริบทภาษาและสถานการณ์ เพื่อแปลความหมายจากถ้อยคำ
ซึ่งบางครั้งผู้พูดอาจตั้งใจเสียดสี บ่งบอกความหมายโดยนัย หรือสื่อสารมากกว่าหนึ่งภาษาในหนึ่งบทสนทนา
4. การเรียนรู้และการปรับตัว (Learning and Adapting)
ทั้ง Speech Recognition และสมองมนุษย์สามารถเรียนรู้และปรับตัวได้ตลอดเวลา อัลกอริทึมการเรียนรู้ของซอฟต์แวร์ทำให้ Speech Recognition พัฒนาให้แม่นยำขึ้นเรื่อยๆ ผ่านการรับสาร
ในขณะเดียวกัน สมองมนุษย์ฉลาดกว่าตรงที่สามารถเรียนรู้และปรับตัวตามสำเนียง ภาษา และวิธีการพูดได้
5. การประมวลผลทางประสาท (Neural Processing)
สมองมนุษย์และเครือข่ายระบบประสาทของ Machine Learning มีความคล้ายคลึงด้านแนวคิดบางประการ โครงสร้างของระบบประสาทของ Machine Learning มีแรงบันดาลใจมาจากโครงสร้างและการทำงานของสมองมนุษย์ โดยมีโหนด (Node) หรือนิวรอนเชื่อมต่อกันเพื่อประมวลผลข้อมูล
6. การจัดการข้อผิดพลาด (Error Handling)
ทั้งโปรแกรมและมนุษย์ต่างมีข้อผิดพลาดกันได้ Speech Recognition อาจตีความผิด สมองมนุษย์ก็อาจได้ยินผิดหรือเข้าใจผิด
อย่างไรก็ตามเรายังจำเป็นที่จะต้องพิจารณาบริบท พื้นฐานความรู้ และภาษากาย เพื่อหลีกเลี่ยงความกำกวมและเพื่อให้สื่อสารได้ตรงความหมาย ถูกต้องตามเจตนามากที่สุด
เหมือนกันแต่ก็ต่างกัน คล้ายกันแต่ไม่เหมือนกัน
ถึงแม้กระบวนการจะคล้ายกัน แต่ต้องอย่าลืมว่าระดับความซับซ้อนและประสิทธิภาพในการประมวลผลเสียงของสมองมนุษย์มีความสามารถเหนือกว่า Speech Recognition สมองมนุษย์รวมข้อมูลจากกระบวนการสัมผัสและพื้นฐานความรู้ทางสติปัญญาที่หลากหลาย สามารถสร้างทฤษฎีหรือแนวคิดใหม่ๆ แก้ไขปัญหา จินตนาการ หรือย้อนความหลังว่าเจอกับใครครั้งล่าสุดเมื่อไหร่
การผนวก Speech Recognition เพื่อการเสริมสร้างธุรกิจ
เนื่องจากธุรกิจต้องการสร้างประสบการณ์ที่ดีลูกค้า ซึ่งความต้องการระบบเทคโนโลยีรู้จำเสียงพูดจึงเพิ่มสูงขึ้นตามไปด้วย
สถิติจาก Google Search ล่าสุดพบว่า 27% ของจำนวนประชากรโลกออนไลน์ใช้การค้นหาด้วยเสียงบนอุปกรณ์มือถือ ซึ่งเท่ากับ 1 พันล้านครั้งต่อเดือน
93.7% ของการค้นหาด้วยเสียงผ่านผู้ช่วย AI แสดงให้เห็นว่าการรับรู้เสียงมีการผนวกเข้ากับเทคโนโลยี AI อย่างมีประสิทธิภาพ
ลองดู AI Voicebot ของ Amity Solutions เป็นตัวอย่าง
ด้วยเทคโนโลยีที่ขับเคลื่อนด้วย GPT และการผนวกแชทบอทเพื่อจัดการคำขอและคำถามสามารถเสริมประสบการณ์ลูกค้าได้อย่างมีประสิทธิภาพ ช่วยให้การสนทนาเป็นธรรมชาติเหมือนคุยกับคนจริงๆ
ด้วยรูปแบบที่มีทั้งเสียงและข้อความในภาษาไทย Amity Voicebot เป็นส่วนเสริมที่ช่วยสร้าง engagement เพื่อระบบคอลเซ็นเตอร์และระบบบริการลูกค้าที่มีประสิทธิภาพมากขึ้น
สนใจอ่านข้อมูลเพิ่มเติม สามารถคลิ๊กที่นี่