OpenAI สร้าง ‘GPTBot’ กวาดข้อมูลจากเว็บไซต์ ใช้ใน ChatGPT รุ่นต่อไป

Tech & Innovation

Tech Companies

กองบรรณาธิการ

กองบรรณาธิการ

Tag

OpenAI สร้าง ‘GPTBot’ กวาดข้อมูลจากเว็บไซต์ ใช้ใน ChatGPT รุ่นต่อไป

Date Time: 9 ส.ค. 2566 18:03 น.

Video

ล้วงลึกอาณาจักร “PCE” สู่บริษัทมหาชน ปาล์มครบวงจร | On The Rise

Summary

  • OpenAI ยอมรับว่ามีการเก็บรวบรวมข้อมูลเว็บไซต์ผ่าน “GPTBot” ในการเทรนโมเดลภาษาเพื่อพัฒนา ChatGPT ท่ามกลางการถกเถียงในการใช้ข้อมูลเพื่อเทรน AI โดยไม่ได้รับอนุญาต

Latest


OpenAI ออกมายอมรับว่ามีการเก็บรวบรวมข้อมูล หรือ Crawling บนเว็บ โดยใช้ “GPTBot” ในการรวบรวมข้อมูลบนโลกออนไลน์เพื่อใช้ในการเทรน AI และสื่อต่างประเทศยังคาดการณ์ว่า GPT-5 ก็มีแนวโน้มที่จะถูกเทรนด้วยข้อมูลจาก GPTBot

Spider หรือ Web Crawler คือการรวบรวมข้อมูลเว็บไซต์ และตัวที่มีการใช้งานมากที่สุดจะเป็น Googlebot ที่จะรวบรวมข้อมูลของเว็บโดยอัตโนมัติ เพื่อให้ Google ทำการจัดอันดับและแสดงข้อมูลในหน้าผลการค้นหา ซึ่งมีผลกับยอดผู้เข้าชมเว็บไซต์

อย่างไรก็ตามทาง OpenAI ก็ได้ออกมาแจ้งว่าผู้ให้บริการเว็บไซต์สามารถบล็อก GPTBot เพื่อไม่ให้ดึงข้อมูลบนเว็บไซต์เพื่อนำไปเทรน เพราะอินเทอร์เน็ตมีข้อมูลสำหรับการเทรนโมเดลภาษา หรือ Large Language Model (LLM) อย่างโมเดล GPT ของ OpenAI หรือ Bard ของ Google 

ซึ่งการบล็อก GPTBot อาจเป็นขั้นแรกของ OpenAI ในการอนุญาตให้ผู้ใช้อินเทอร์เน็ตเลือกที่จะไม่ให้ข้อมูลในการเทรนโมเดลภาษา

ขณะเดียวกันยังคงมีการถกเถียงเพิ่มขึ้นเรื่อยมาเกี่ยวกับการเก็บข้อมูลเพื่อเทรน AI ซึ่งเว็บไซต์อย่าง Reddit และ Twitter ก็ได้ผลักดันให้ควบคุมการใช้งานโพสต์ของผู้ใช้โดยบริษัท AI ขณะที่นักเขียนหรือเหล่าครีเอทีฟก็ได้มีการฟ้องร้องในประเด็นการใช้ข้อมูลโดยไม่ได้รับอนุญาต

และตามการรายงานของ Axios เว็บไซต์ข่าวสัญชาติอเมริกันระบุว่าบริษัทอย่าง Adobe ได้มีการเสนอไอเดียในการทำเครื่องหมายเพื่อระบุว่าข้อมูลใดไม่ได้ใช้สำหรับการเทรนนิง ซึ่งบริษัท OpenAI, Microsoft, Google, Meta และอีกหลายเจ้ายังได้ลงนามในข้อตกลงกับทำเนียบขาวในการพัฒนาระบบลายน้ำเพื่อแจ้งให้ผู้ใช้ทราบเมื่อเนื้อหาถูกสร้างขึ้นโดย AI แต่ก็ไม่ได้บอกว่าจะหยุดใช้ข้อมูลอินเทอร์เน็ตในการเทรนแต่อย่างใด

อ้างอิง


Author

กองบรรณาธิการ

กองบรรณาธิการ