เปรียบเทียบ RAG Workflow vs. Long Context in Generative AI

ในโลกของปัญญาประดิษฐ์ที่กำลังพัฒนาอย่างรวดเร็ว มีสองเทคนิคหลักในการจัดการกับข้อมูลขนาดใหญ่ที่น่าสนใจ นั่นคือ การสร้างเนื้อหาโดยใช้การค้นคืนข้อมูล (Retrieval Augmented Generation หรือ RAG) และโมเดลภาษาขนาดใหญ่ที่รองรับบริบทที่ยาว (Long-Context Large Language Models หรือ LC LLMs)

บทความนี้จะพาไปสำรวจความแตกต่างระหว่างสองเทคนิคนี้ พร้อมชี้ให้เห็นจุดเด่นและจุดด้อย รวมถึงแนะนำวิธีผสมผสานที่นำข้อดีของทั้งสองแบบมารวมกัน

ทำความเข้าใจ RAG และ LC

การสร้างเนื้อหาโดยใช้การค้นคืนข้อมูล (RAG)

RAG เป็นเทคนิคที่ AI จะค้นหาข้อมูลที่เกี่ยวข้องจากฐานข้อมูลขนาดใหญ่ แล้วนำมาสร้างคำตอบ ลองนึกภาพว่าเรามีห้องสมุดขนาดมหึมา แทนที่จะอ่านหนังสือทุกเล่ม เราสามารถขอให้บรรณารักษ์ (ซึ่งก็คือ AI) หยิบหนังสือที่เกี่ยวข้องกับคำถามมาให้ จากนั้น AI ก็จะใช้ข้อมูลจากหนังสือเหล่านั้นมาตอบคำถามของเรานั่นเอง

ตัวอย่างเช่น สมมติว่ามีแชทบอท HR ที่ออกแบบมาเพื่อตอบคำถามเกี่ยวกับสวัสดิการพนักงาน ถ้าพนักงานถามเกี่ยวกับการเบิกค่ารักษาพยาบาลผู้ป่วยนอก (OPD) ภายใต้กรมธรรม์ประกันกลุ่ม ระบบที่ใช้ RAG จะค้นหาเอกสารหรือส่วนที่เกี่ยวข้องกับการเบิก OPD โดยเฉพาะ แล้วสร้างคำตอบจากข้อมูลที่ค้นมาได้ ทำให้คำตอบมีความแม่นยำและตรงประเด็น

โมเดลภาษาขนาดใหญ่ที่รองรับบริบทแบบยาว (LC LLMs)

ในทางกลับกัน LC LLMs ถูกออกแบบมาให้ประมวลผลและเข้าใจข้อความยาวๆ ได้โดยตรง โมเดลเหล่านี้สามารถจัดการกับบริบทที่ยาวมากๆ โดยไม่ต้องไปค้นหาข้อมูลเพิ่มเติม ทำให้เหมาะกับงานที่ต้องการความเข้าใจอย่างลึกซึ้งและต่อเนื่อง ซึ่งต่างจากโมเดลภาษาขนาดเล็กหรือที่มีบริบทสั้นๆ ที่อาจจะไม่สามารถจับรายละเอียดหรือบริบทที่ซับซ้อนได้เท่ากัน

ยกตัวอย่างเดียวกันกับแชทบอท HR ถ้าพนักงานถามเรื่องการเบิกค่า OPD ระบบที่ใช้ LC จะนำเอากรมธรรม์ประกันกลุ่มทั้งฉบับมาใส่ไว้ในคำสั่ง (prompt) ของ AI ทำให้โมเดลสามารถให้คำตอบที่ครอบคลุมโดยเข้าใจบริบททั้งหมดของกรมธรรม์ แม้ว่าคำถามจะเกี่ยวข้องกับหลายแง่มุมของความคุ้มครองก็ตาม

ผลการเปรียบเทียบประสิทธิภาพ

งานวิจัยล่าสุดได้เปรียบเทียบ RAG และ LC โดยใช้ชุดข้อมูลหลากหลาย ทดสอบกับโมเดลอย่าง Gemini-1.5-Pro และ GPT-4 ผลการวิจัยพบว่าโมเดล LC มักจะมีประสิทธิภาพดีกว่า RAG ในแง่ของความแม่นยำและความลึกของความเข้าใจ หากมีทรัพยากรการคำนวณเพียงพอ อย่างไรก็ตาม RAG ยังคงมีข้อได้เปรียบในแง่ของต้นทุนการคำนวณที่ต่ำกว่า

ประสิทธิภาพ:

โมเดล Gemini-1.5-Pro ทำคะแนนได้สูงสุดเมื่อใช้เทคนิคLC (49.70 คะแนน) ตามมาด้วย GPT-4O ที่ใช้วิธี Self-Route (48.89 คะแนน)
เทคนิค RAG ได้คะแนนต่ำกว่าในทุกโมเดล เช่น GPT-4O ได้ 32.60 คะแนน และ Gemini-1.5-Pro ได้ 37.33 คะแนน

ต้นทุน:

เทคนิค LC มีต้นทุนสูงสุด (100%) ในทุกโมเดล
เทคนิค RAG ประหยัดที่สุด (17%) สำหรับทุกโมเดล
เทคนิค Self-Route มีต้นทุนปานกลาง โดย GPT-3.5-Turbo ประหยัดที่สุดที่ 39%

เทคนิค Self-Route

เพื่อลดช่องว่างระหว่างประสิทธิภาพและต้นทุน นักวิจัยได้เสนอวิธี Self-Route ซึ่งเป็นวิธีผสมผสานที่เลือกใช้ RAG หรือ LC แบบไดนามิก ขึ้นอยู่กับความซับซ้อนของคำถามและการประเมินตนเองของโมเดล

โดยเทคนิค Self-Route ให้ประสิทธิภาพที่สมดุล โดย GPT-4O ทำได้ 48.89 คะแนน และ Gemini-1.5-Pro ทำได้ 46.41 คะแนน ในขณะที่รักษาต้นทุนให้อยู่ในระดับปานกลาง (61% สำหรับ GPT-4O)

การเปรียบเทียบประสิทธิภาพและต้นทุนของ LC, RAG และ Self-Route สำหรับโมเดล AI — ผลการเปรียบเทียบ - (a) ประสิทธิภาพ และ (b) ต้นทุน ของ LC, RAG และ Self-Route ในโมเดล AI สามรุ่น

บทสรุป

สรุปง่ายๆ คือ แม้ว่า LC LLMs จะเก่งกว่าในงานที่ต้องดึงข้อมูลยาวๆ มาใช้ แต่ RAG ก็ยังมีประโยชน์เพราะประหยัดค่าใช้จ่ายกว่า ส่วนเทคนิค Self-Route ที่เพิ่งคิดค้นขึ้นมาใหม่นี้ เอาข้อดีของทั้งสองอย่างมารวมกัน ทำให้ได้วิธีที่ทั้งมีประสิทธิภาพและประหยัดไปพร้อมๆ กัน ไม่แปลกเลยถ้าในอนาคตอันใกล้ เราจะเห็นเทคนิคแบบผสมผสานนี้ถูกนำไปใช้กันอย่างแพร่หลาย เพราะมันตอบโจทย์การใช้งานได้หลากหลายและมีประสิทธิภาพสูงนั่นเอง

ทาง Amity Solutions ก็มีบริการ generative AI และ Chatbot ที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่