OpenAI ออกมายอมรับว่ามีการเก็บรวบรวมข้อมูล หรือ Crawling บนเว็บ โดยใช้ “GPTBot” ในการรวบรวมข้อมูลบนโลกออนไลน์เพื่อใช้ในการเทรน AI และสื่อต่างประเทศยังคาดการณ์ว่า GPT-5 ก็มีแนวโน้มที่จะถูกเทรนด้วยข้อมูลจาก GPTBot
Spider หรือ Web Crawler คือการรวบรวมข้อมูลเว็บไซต์ และตัวที่มีการใช้งานมากที่สุดจะเป็น Googlebot ที่จะรวบรวมข้อมูลของเว็บโดยอัตโนมัติ เพื่อให้ Google ทำการจัดอันดับและแสดงข้อมูลในหน้าผลการค้นหา ซึ่งมีผลกับยอดผู้เข้าชมเว็บไซต์
อย่างไรก็ตามทาง OpenAI ก็ได้ออกมาแจ้งว่าผู้ให้บริการเว็บไซต์สามารถบล็อก GPTBot เพื่อไม่ให้ดึงข้อมูลบนเว็บไซต์เพื่อนำไปเทรน เพราะอินเทอร์เน็ตมีข้อมูลสำหรับการเทรนโมเดลภาษา หรือ Large Language Model (LLM) อย่างโมเดล GPT ของ OpenAI หรือ Bard ของ Google
ซึ่งการบล็อก GPTBot อาจเป็นขั้นแรกของ OpenAI ในการอนุญาตให้ผู้ใช้อินเทอร์เน็ตเลือกที่จะไม่ให้ข้อมูลในการเทรนโมเดลภาษา
ขณะเดียวกันยังคงมีการถกเถียงเพิ่มขึ้นเรื่อยมาเกี่ยวกับการเก็บข้อมูลเพื่อเทรน AI ซึ่งเว็บไซต์อย่าง Reddit และ Twitter ก็ได้ผลักดันให้ควบคุมการใช้งานโพสต์ของผู้ใช้โดยบริษัท AI ขณะที่นักเขียนหรือเหล่าครีเอทีฟก็ได้มีการฟ้องร้องในประเด็นการใช้ข้อมูลโดยไม่ได้รับอนุญาต
และตามการรายงานของ Axios เว็บไซต์ข่าวสัญชาติอเมริกันระบุว่าบริษัทอย่าง Adobe ได้มีการเสนอไอเดียในการทำเครื่องหมายเพื่อระบุว่าข้อมูลใดไม่ได้ใช้สำหรับการเทรนนิง ซึ่งบริษัท OpenAI, Microsoft, Google, Meta และอีกหลายเจ้ายังได้ลงนามในข้อตกลงกับทำเนียบขาวในการพัฒนาระบบลายน้ำเพื่อแจ้งให้ผู้ใช้ทราบเมื่อเนื้อหาถูกสร้างขึ้นโดย AI แต่ก็ไม่ได้บอกว่าจะหยุดใช้ข้อมูลอินเทอร์เน็ตในการเทรนแต่อย่างใด
อ้างอิง