Operator จาก OpenAI: ผู้ช่วยคนใหม่ให้การทำงานบนเว็บง่ายขึ้น
OpenAI เปิดตัว Operator ในรูปแบบการทดลองวิจัย เป็น AI ตัวแทนขั้นสูงที่สามารถท่องเว็บและจัดการงานดิจิทัลได้ หัวใจสำคัญคือระบบ Computer-Using Agent (CUA) ที่ผสานความสามารถด้านการมองเห็นของ GPT-4o เข้ากับการใช้เหตุผลแบบเรียนรู้เสริมแรง CUA โต้ตอบกับส่วนติดต่อผู้ใช้แบบกราฟิก (GUI) เหมือนมนุษย์ ไม่ว่าจะเป็นการกดปุ่ม เมนู และช่องข้อความ แทนที่จะพึ่งพา API เฉพาะของระบบปฏิบัติการหรือเว็บ วิธีนี้ช่วยเพิ่มความยืดหยุ่นในการทำงานข้ามแพลตฟอร์มต่างๆ
ก้าวกระโดดของ AI ด้วยการโต้ตอบผ่าน GUI
CUA เป็นผลลัพธ์จากการวิจัยหลายปีที่บูรณาการความเข้าใจหลายรูปแบบและการแก้ปัญหาอย่างเป็นระบบ ด้วยความสามารถในการรับรู้และโต้ตอบกับ GUI ทำให้สามารถแยกงานซับซ้อนเป็นขั้นตอนย่อยๆ พร้อมรับมือกับความท้าทายที่ไม่คาดคิด นับเป็นก้าวสำคัญของ AI ที่ช่วยให้โมเดลใช้เครื่องมือดิจิทัลได้คล้ายมนุษย์ และขยายขอบเขตการประยุกต์ใช้
แม้จะอยู่ในช่วงเริ่มต้น CUA ก็สร้างมาตรฐานใหม่ในประสิทธิภาพของ AI โดยทำคะแนนได้ 38.1% ใน OSWorld สำหรับการใช้คอมพิวเตอร์ทั่วไป 58.1% ใน WebArena และ 87% ใน WebVoyager สำหรับงานบนเว็บ ผลลัพธ์นี้แสดงให้เห็นความสามารถในการทำงานข้ามสภาพแวดล้อมดิจิทัลที่หลากหลายด้วยกรอบการทำงานเดียวกัน
การประเมินผลและประสิทธิภาพตามเกณฑ์มาตรฐาน
CUA สร้างมาตรฐานใหม่ทั้งในงานคอมพิวเตอร์และงานบนเว็บ โดยใช้อินเทอร์เฟซสากลเดียวกันคือหน้าจอ เมาส์ และคีย์บอร์ด
การใช้งานเบราว์เซอร์
WebArena และ WebVoyager เป็นแพลตฟอร์มทดสอบที่ออกแบบมาเพื่อประเมินความสามารถของตัวแทน AI ในการท่องโลกออนไลน์ โดยที่ WebArena ใช้เว็บไซต์โอเพนซอร์สที่โฮสต์เองเพื่อจำลองสถานการณ์จริง เช่น อีคอมเมิร์ซ ระบบจัดการเนื้อหา และฟอรัม ส่วน WebVoyager ประเมินความสามารถของโมเดลบนแพลตฟอร์มออนไลน์จริง เช่น Amazon, GitHub และ Google Maps
CUA แสดงประสิทธิภาพที่โดดเด่นในการทดสอบเหล่านี้ ด้วยอัตราความสำเร็จ 58.1% ใน WebArena และ 87% ใน WebVoyager แม้จะทำผลงานได้ดีใน WebVoyager แต่งานที่ซับซ้อนกว่าใน WebArena ชี้ให้เห็นว่ายังต้องพัฒนาต่อเพื่อให้ทัดเทียมมนุษย์
การใช้งานคอมพิวเตอร์
OSWorld เป็นเกณฑ์มาตรฐานที่วัดความสามารถของโมเดลในการใช้งานระบบคอมพิวเตอร์ ทั้ง Ubuntu, Windows และ macOS CUA ทำคะแนนได้ 38.1% ใน OSWorld แสดงให้เห็นศักยภาพในการจัดการสภาพแวดล้อมดิจิทัลที่หลากหลาย ที่น่าสนใจคือประสิทธิภาพจะดีขึ้นเมื่อเพิ่มขั้นตอนการประมวลผล บ่งชี้ว่ามีโอกาสพัฒนาความสามารถต่อไปได้อีก อย่างไรก็ตาม ประสิทธิภาพของมนุษย์ในการทดสอบนี้อยู่ที่ 72.4% ชี้ให้เห็นว่ายังมีพื้นที่ให้พัฒนาอีกมาก
การให้ความสำคัญกับความปลอดภัยและการเปิดตัวอย่างรับผิดชอบ
ด้วยความสามารถของ CUA ในการโต้ตอบกับสภาพแวดล้อมดิจิทัล ความปลอดภัยจึงเป็นจุดเน้นหลักในการพัฒนา OpenAI ได้ติดตั้งระบบป้องกันเพื่อจัดการความเสี่ยงต่างๆ ตามรายละเอียดใน Operator System Card ในแผนการเปิดตัวแบบเฟส CUA จะเริ่มให้บริการในรูปแบบการทดลองวิจัยผ่าน Operator ที่ operator.chatgpt.com สำหรับผู้ใช้ระดับ Pro ในสหรัฐฯ การเปิดตัวแบบควบคุมนี้ช่วยให้ OpenAI รวบรวมข้อเสนอแนะจากผู้ใช้ ปรับปรุงมาตรการความปลอดภัย และเพิ่มความน่าเชื่อถือก่อนขยายการให้บริการ
วิธีการทำงานของ CUA
CUA ทำงานด้วยการวิเคราะห์ข้อมูลพิกเซลเพื่อแปลความหมายสิ่งที่อยู่บนหน้าจอ และใช้เมาส์และคีย์บอร์ดเสมือนในการทำงาน สามารถจัดการกระบวนการหลายขั้นตอน แก้ไขข้อผิดพลาด และปรับตัวกับสภาพแวดล้อมที่เปลี่ยนแปลง ทำให้มีความยืดหยุ่นสูง
วงจรการทำงานของ CUA ประกอบด้วยสามขั้นตอนหลัก:
- การรับรู้: โมเดลจับภาพหน้าจอของสภาพแวดล้อมดิจิทัลปัจจุบัน เพื่อใช้ในการตัดสินใจ
- การใช้เหตุผล: CUA ใช้วิธีการคิดแบบเป็นลำดับขั้น ประเมินสิ่งที่สังเกตเห็น ติดตามขั้นตอนระหว่างทาง และกำหนดลำดับการทำงานที่เหมาะสมที่สุด
- การลงมือทำ: โต้ตอบกับอินเทอร์เฟซด้วยการคลิก เลื่อน และพิมพ์ ทำต่อเนื่องจนกว่างานจะเสร็จหรือต้องการข้อมูลจากผู้ใช้ สำหรับการทำงานที่ต้องการความปลอดภัยสูง เช่น การใส่ข้อมูลเข้าสู่ระบบหรือตอบ CAPTCHA CUA จะขอการยืนยันจากผู้ใช้ก่อนดำเนินการ
ด้วยการพัฒนาอย่างต่อเนื่องจากข้อเสนอแนะในโลกจริง CUA แสดงถึงความก้าวหน้าครั้งสำคัญในการทำงานอัตโนมัติด้วย AI ความสามารถในการใช้อินเทอร์เฟซดิจิทัลเหมือนมนุษย์เปิดโอกาสใหม่สำหรับการประยุกต์ใช้ AI และเพิ่มประสิทธิภาพดิจิทัลในทุกอุตสาหกรรม
การรักษาความปลอดภัยในการใช้งาน AI Agent
ในฐานะที่เป็นหนึ่งใน AI Agent ตัวแรกๆ ของ OpenAI ที่สามารถดำเนินการในเบราว์เซอร์ได้โดยตรง CUA นำมาซึ่งความท้าทายและความเสี่ยงใหม่ๆ ที่ต้องจัดการอย่างรอบคอบ ก่อนเปิดตัว Operator มีการทดสอบความปลอดภัยอย่างละเอียดและติดตั้งระบบป้องกันเพื่อรับมือกับความเสี่ยงหลัก 3 ด้าน: การใช้งานในทางที่ผิด ข้อผิดพลาดของโมเดล และภัยคุกคามด้านความปลอดภัยขั้นสูง OpenAI ใช้วิธีการป้องกันแบบหลายชั้น ทั้งในระดับโมเดล CUA ระบบ Operator และการติดตามหลังการใช้งาน
การจัดการความเสี่ยงจากการใช้งานในทางที่ผิด
Operator มีระบบป้องกันหลายชั้นควบคู่กับนโยบายการใช้งานของ OpenAI:
- การปฏิเสธ: CUA ถูกฝึกให้ปฏิเสธงานที่เป็นอันตราย ผิดกฎหมาย หรืออยู่ภายใต้การควบคุม
- บัญชีดำ: Operator จำกัดการเข้าถึงเว็บไซต์บางประเภท เช่น การพนัน เนื้อหาสำหรับผู้ใหญ่ และร้านค้าที่ขายยาหรืออาวุธปืน
- การกลั่นกรอง: ระบบตรวจสอบความปลอดภัยอัตโนมัติคอยเฝ้าดูการโต้ตอบของผู้ใช้แบบเรียลไทม์
- การตรวจจับออฟไลน์: ใช้ทั้งเครื่องมืออัตโนมัติและการตรวจสอบโดยมนุษย์เพื่อป้องกันกิจกรรมต้องห้าม
การลดข้อผิดพลาดของโมเดล
ข้อผิดพลาดของโมเดล เช่น การทำงานที่ไม่ได้ตั้งใจ อาจมีตั้งแต่ปัญหาเล็กน้อยอย่างพิมพ์ผิดในอีเมล ไปจนถึงผลกระทบรุนแรง เช่น การซื้อของผิด หรือลบข้อมูลสำคัญ OpenAI จึงมีมาตรการต่อไปนี้:
- การยืนยันจากผู้ใช้: ก่อนดำเนินการที่มีผลภายนอก CUA จะขอการยืนยันจากผู้ใช้
- ข้อจำกัดงาน: โมเดลจะปฏิเสธคำขอที่เกี่ยวข้องกับกิจกรรมเสี่ยงสูง
- โหมดเฝ้าดู: เมื่อใช้งานเว็บไซต์ที่ละเอียดอ่อน Operator จะต้องมีผู้ใช้คอยกำกับดูแล
การป้องกันการโจมตี
CUA มีระบบป้องกันการโจมตีต่างๆ รวมถึง prompt injection การเจาะระบบ และการหลอกลวง:
- การนำทางอย่างระมัดระวัง: โมเดลถูกฝึกให้ตรวจจับและละเว้นความพยายามฉีด prompt
- ระบบเฝ้าระวัง: มีโมเดลตรวจสอบที่คอยสแกนเนื้อหาต้องสงสัย
- ระบบตรวจจับ: กระบวนการตรวจสอบอัตโนมัติและโดยมนุษย์คอยติดตามรูปแบบการเข้าถึงที่ผิดปกติ
บทสรุป
CUA แสดงถึงความก้าวหน้าหลายปีในด้าน AI แบบ multimodal การใช้เหตุผล และการวิจัยด้านความปลอดภัย OpenAI ได้พัฒนาการใช้เหตุผลเชิงลึกผ่านซีรีส์ o-model เพิ่มขีดความสามารถด้านการมองเห็นผ่าน GPT-4o และเสริมความแข็งแกร่งของ AI ด้วยการเรียนรู้แบบเสริมแรงและลำดับขั้นคำสั่ง การพัฒนาระยะต่อไปจะมุ่งเน้นการขยายความสามารถของ AI Agent ในการโต้ตอบกับสภาพแวดล้อมซอฟต์แวร์ที่หลากหลาย
ด้วยการใช้อินเทอร์เฟซสากล CUA ถูกออกแบบให้สามารถใช้เครื่องมือดิจิทัลใดๆ ที่สร้างมาสำหรับผู้ใช้ที่เป็นมนุษย์ ก้าวข้ามข้อจำกัดของ API เฉพาะทาง ความสามารถในการปรับตัวนี้ช่วยให้จัดการงานดิจิทัลที่หลากหลายซึ่งโมเดล AI ทั่วไปทำได้ยาก OpenAI กำลังทำงานเพื่อผสาน CUA เข้ากับ API ของตน เพื่อให้นักพัฒนาสามารถสร้าง AI Agent ของตัวเองได้
ขณะที่การทดลองวิจัยดำเนินต่อไป OpenAI จะปรับปรุงความสามารถและระบบป้องกันของ CUA จากข้อเสนอแนะในโลกจริง เพื่อให้แน่ใจว่าความก้าวหน้าของ AI ยังคงทั้งนวัตกรรมและความรับผิดชอบ
ทาง Amity Solutions ก็มีบริการ Amity Botsที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่