ใครมีเพื่อนรักเป็น ChatGPT ต้องถูกใจสิ่งนี้ เพราะล่าสุด ChatGPT สามารถตอบคำถามด้วยภาพและเสียงได้ พร้อมปรับปรุงอินเทอร์เฟซรูปแบบใหม่ให้ใช้งานง่ายยิ่งขึ้น
โดยจะเปิดให้ใช้งานฟีเจอร์ใหม่นี้ในอีกสองสัปดาห์ สำหรับผู้ใช้งาน ChatGPT Plus และ ChatGPT Enterprise ทั้งนี้การโต้ตอบด้วยเสียงจะใช้งานได้สำหรับระบบปฏิบัติการ iOS และ Android และการถามด้วยรูปภาพจะสามารถใช้งานได้บนทุกแพลตฟอร์ม
สำหรับฟังก์ชันการโต้ตอบด้วยเสียง ผู้ใช้สามารถถามตอบได้เช่นเดียวกับการแชตคุยกับ ChatGPT โดยไปที่การตั้งค่าเพื่อเพิ่มฟังก์ชันการโต้ตอบด้วยเสียง และสามารถเลือกเสียงที่ต้องการได้จาก 5 ตัวเลือก โดยร่วมมือกับนักพากย์มืออาชีพในการสร้างแต่ละเสียงเพื่อโต้ตอบกับผู้ใช้
และความสามารถในการพูดของ ChatGPT นั้นถูกขับเคลื่อนโดยโมเดล Text-to-Speech แบบใหม่ ซึ่งสามารถสร้างเสียงที่เหมือนกับเสียงของคนจากข้อความและคำพูดตัวอย่างเพียงไม่กี่นาที พร้อมกับใช้ Whisper ซึ่งเป็นระบบรู้จำเสียงพูด (Automatic Speech Recognition: ASR) ของ OpenAI เพื่อถอดคำพูดออกมาเป็นข้อความ
นอกจากนี้ผู้ใช้ ChatGPT Plus และ ChatGPT Enterprise ยังสามารถส่งรูปภาพเพื่อพูดคุยกับ ChatGPT โดยทำได้ตั้งแต่ส่งภาพทั่วไปเพื่อถามตอบ หรือภาพสิ่งของที่พังเพื่อให้ ChatGPT ช่วยหาวิธีซ่อมแซม ไปจนถึงวิเคราะห์กราฟที่ซับซ้อนเพื่อหาคำตอบช่วยเราได้
สำหรับการประมวลรูปภาพจะใช้โมเดล GPT-3.5 และ GPT-4 ซึ่งจะสามารถประมวลภาพได้หลากหลายแบบ ไม่ว่าจะเป็นภาพถ่าย ภาพถ่ายหน้าจอ เอกสารที่มีทั้งข้อความและรูปภาพ
อย่างไรก็ตามโมเดลดังกล่าวมีประสิทธิภาพในการถอดข้อความภาษาอังกฤษ แต่ยังทำงานได้ไม่ดีในการถอดข้อความบางภาษาโดยเฉพาะภาษาที่ไม่ได้เขียนด้วยอักษรโรมัน
สำหรับคู่แข่งอย่าง Bard จาก Google เมื่อไม่นานมานี้ก็ได้เพิ่มฟีเจอร์การรับรู้ภาพ หรือ Image Recognition ที่ไม่เพียงระบุวัตถุในรูปภาพได้เพียงอย่างเดียว แต่ยังสามารถเข้าใจบริบท ความแตกต่าง และเรื่องราวที่รูปภาพต้องการจะสื่อ ทำได้ตั้งแต่สร้างโค้ดสำหรับเว็บไซต์จากภาพถ่ายหน้าจอ ออกแบบเว็บไซต์ รวมถึงเขียนแคปชั่นให้กับรูปภาพ
อ้างอิง