ธุรกิจยุค AI: ส่องการใช้ Speech-to-Text ในอุตสาหกรรมชั้นนำ

Experts pool

Columnist

สหพัฒณ์ ล้ำสมบัติ

CEO บริษัท เวิร์ดเซนส์ จำกัด บริษัทในเครือ Looloo Technology ที่มีความเชี่ยวชาญด้าน OCR โดยเฉพาะ OCR Handwriting แปลงลายมือภาษาไทยเป็นข้อความดิจิทัล

ธุรกิจยุค AI: ส่องการใช้ Speech-to-Text ในอุตสาหกรรมชั้นนำ

Date Time: 25 ต.ค. 2567 17:37 น.

Video

"CINDY CHAO The Art Jewel" สองทศวรรษอัญมณีศิลป์ | Brand Story Exclusive EP.4

“Summary“

เทคโนโลยีแปลงเสียงพูดเป็นข้อความ หรือ Speech-to-Text เป็นอีกหนึ่งเทคโนโลยีที่กำลังเข้ามามีบทบาทสำคัญต่ออุตสาหกรรมต่าง ๆ มากขึ้น โดยเฉพาะในยุคที่ได้ชื่อว่า “Data is the King” เพราะเทคโนโลยีนี้จะเข้ามาช่วยเพิ่มประสิทธิภาพการทำงานได้หลากหลายมิติ ทำให้การเก็บข้อมูลเป็นระบบมากขึ้น คนทำงานเข้าถึงข้อมูลได้สะดวกยิ่งขึ้น ลดเวลาการทำงาน ที่สำคัญยังช่วยวิเคราะห์ข้อมูลเพื่อตอบสนองความต้องการของลูกค้าได้ทันที

DarkLight

Latest

ย้อนนโยบาย “โดนัลด์ ทรัมป์” ขย้ำโลก

เทคโนโลยีแปลงเสียงพูดเป็นข้อความ Speech-to-Text หรือ ASR (Automatic Speech Recognition) เป็นอีกหนึ่งเทคโนโลยีที่กำลังเข้ามามีบทบาทสำคัญต่ออุตสาหกรรมต่าง ๆ มากขึ้น โดยเฉพาะในยุคที่ได้ชื่อว่า “Data is the King” เทคโนโลยีนี้จะเข้ามาช่วยเพิ่มประสิทธิภาพการทำงานได้หลากหลายมิติ ด้วยการช่วยบันทึกและถอดข้อมูลเสียงออกมาเป็นข้อความได้อย่างรวดเร็วและแม่นยำ ทำให้การเก็บข้อมูลเป็นระบบมากขึ้น คนทำงานเข้าถึงข้อมูลได้สะดวกยิ่งขึ้น ลดเวลาการทำงาน ที่สำคัญยังช่วยวิเคราะห์ข้อมูลเพื่อตอบสนองความต้องการของลูกค้าได้ทันที

ปัจจุบันจะเห็นได้ว่าตลาด Speech-to-Text เติบโตขึ้นอย่างต่อเนื่อง เพราะด้วยศักยภาพของระบบที่นำไปประยุกต์ใช้ได้หลายอุตสาหกรรม ไม่ว่าจะเป็น ประกันภัย สาธารณสุข สื่อและงานบริการลูกค้า ฯลฯ คาดการณ์ว่ามูลค่าตลาด API ของเทคโนโลยีแปลงเสียงเป็นข้อความ ASR จะขยายตัวจาก 3.24 พันล้านดอลลาร์สหรัฐในปี 2023 เป็น 3.87 พันล้านดอลลาร์สหรัฐในปี 2024 โดยอัตราการเติบโตเฉลี่ยต่อปีอยู่ที่ 19.2% Speech-to-Text นับเป็นเทคโนโลยีสำคัญที่จะช่วยผลักดันการดำเนินธุรกิจให้ก้าวไปข้างหน้าอย่างมีประสิทธิภาพและช่วยให้ธุรกิจของคุณเท่าทันกับความเปลี่ยนแปลง

เสียงสู่ตัวอักษร: 3 อุตสาหกรรมที่ใช้ Speech-to-Text เพิ่มประสิทธิภาพ

Speech-to-Text นับเป็นเทคโนโลยีสำคัญแห่งยุค ที่จะช่วยผลักดันการดำเนินธุรกิจให้ก้าวไปอย่างมีประสิทธิภาพและเท่าทันรับกับความเปลี่ยนแปลง มาดูกันว่าปัจจุบันกลุ่มธุรกิจประกันภัย การแพทย์ สื่อและภาพยนตร์ ซึ่งเป็น 3 กลุ่มธุรกิจหลักที่เริ่มนำเทคโนโลยีแปลงเสียงพูดเป็นข้อความ ASR เข้ามาช่วยยกระดับการทำงาน

การเข้ามาของเทคโนโลยี Speech-to-Text จะช่วยเพิ่มกำไรและประสิทธิภาพให้ธุรกิจดังกล่าวอย่างไรบ้าง?

Speech-to-Text : ธุรกิจประกันภัย (Insurance)

เมื่อมีการเข้ามาของเทคโนโลยีแปลงเสียงพูดเป็นข้อความ Speech-to-Text ธุรกิจประกันภัยคือหนึ่งในอุตสาหกรรมที่ได้รับประโยชน์มากเป็นอันดับต้น ๆ เพราะด้วยรูปแบบธุรกิจที่เต็มไปด้วยข้อมูลจำนวนมาก ในแต่ละวันพนักงานหรือตัวแทนขายต้องเจอกับลูกค้าที่เต็มไปด้วยข้อมูลที่แตกต่างในรายละเอียดที่หลากหลาย ดังนั้นการใช้ Speech-to-Text เข้ามาช่วยบันทึกการสนทนาอย่างเป็นระบบ พร้อมแปลงเสียงเป็นข้อความแบบเรียลไทม์ ย่อมช่วยเพิ่มประสิทธิภาพการทำงาน รวมถึงสร้างความพึงพอใจของลูกค้าได้มากยิ่งขึ้น

ที่สำคัญ Speech-to-Text ยังช่วยให้บริษัทประกันภัยระบุปัญหาหรือข้อสงสัยของลูกค้าได้เร็วขึ้น ช่วยลดเวลาแก้ไขปัญหาและเพิ่มประสิทธิภาพฝ่ายบริการลูกค้าได้มากยิ่งขึ้น นอกจากนี้ AI ยังนำเอาข้อมูลต่าง ๆ ที่ได้มาไปวิเคราะห์และพัฒนาต่อยอดผลิตภัณฑ์และการตลาด ช่วยให้บริการใหม่ ๆ ที่ออกมาตรงใจลูกค้ากลุ่มเป้าหมาย ซึ่งนำไปสู่ผลลัพธ์เรื่อง “ตัวเลข” ของยอดขายและกำไรที่เพิ่มมากขึ้น

การสำรวจของ Microsoft พบว่า 59% ของบริษัทที่ใช้ Speech-to-Text วิเคราะห์ข้อมูลและประเมินผลการสนทนา ช่วยให้พนักงานในกลุ่มธุรกิจประกันภัยรับมือกับปัญหาลูกค้าได้ดี และลดเวลาแก้ไขปัญหาลง

ตัวอย่างระบบจัดการข้อมูลเสียง Speech-to-Text by WordSense

Speech-to-Text : การแพทย์ (Healthcare)

ปัจจุบันเทคโนโลยี Speech-to-Text กำลังสร้างการเปลี่ยนแปลงครั้งใหญ่ในวงการแพทย์ ด้วยการเข้ามาช่วยพลิกโฉมวงการแพทย์ แปลงบทสนทนาระหว่างแพทย์และผู้ป่วยให้เป็นข้อความได้อย่างรวดเร็วและแม่นยำ เรียกว่าลดภาระงานเอกสารของแพทย์ และลดความผิดพลาดจากการบันทึกเองด้วยมือ ให้แพทย์นำเวลาไปเพิ่มคุณภาพการรักษา ตลอดจนพัฒนาการวินิจฉัยโรคให้แม่นยำยิ่งขึ้น

ความน่าเชื่อถือของเทคโนโลยี Speech-to-Text ยืนยันจากการศึกษาของ Market Research Future ซึ่งพบว่า 1 ใน 4 ของโรงพยาบาลในสหรัฐอเมริกา ได้เริ่มนำ Speech-to-Text มาใช้เพื่อเพิ่มประสิทธิภาพในการทำงาน
- ศูนย์การแพทย์เพื่อประโยชน์ทางวิชาการในสหรัฐ (Mayo Clinic) รายงานว่าการใช้ Speech-to-Text ช่วยลดเวลาในการทำเอกสารลงได้ถึง 50%
- แพทย์ที่โรงพยาบาล Cleveland Clinic ในสหรัฐ พบว่าสามารถดูแลผู้ป่วยได้เพิ่มขึ้นอีก 2-3 รายต่อวัน หลังจากนำเทคโนโลยี Speech-to-Text มาใช้

จากข้อมูลข้างต้น จะเห็นได้ว่า Speech-to-Text ไม่เพียงแต่ช่วยอำนวยความสะดวกให้แพทย์เท่านั้น แต่ยังส่งผลดีโดยตรงต่อคุณภาพการรักษาและการดูแลผู้ป่วยอีกด้วย

ตัวอย่างแอปฯ PresScribe by Looloo Technology ใช้บันทึกเสียงสนทนาระหว่างแพทย์และผู้ป่วย ช่วยแปลงเสียงเป็นตัวอักษร

Speech-to-Text สื่อและภาพยนตร์ (Media & Movie)

เทคโนโลยี Speech-to-Text กำลังปฏิวัติวงการสื่อและภาพยนตร์ โดยเฉพาะในด้านการผลิตเนื้อหาและเพิ่มขีดความสามารถให้เข้าถึงผู้ชมได้มากขึ้น ด้วยความสามารถในการแปลงเสียงเป็นข้อความได้อย่างรวดเร็วและแม่นยำ จะเห็นได้ว่าการแข่งขันโอลิมปิกครั้งล่าสุด ตลอดการถ่ายทอดสดจะมีคำบรรยาย (Subtitle) เรียลไทม์ในหลาย ๆ ภาษาขึ้นให้เห็นแบบทันทีทันใด นั่นก็เพื่อเพิ่มการเข้าถึงผู้ชมในวงกว้าง รวมถึงช่วยให้กลุ่มผู้ที่มีปัญหาทางการได้ยิน สามารถรับชมกีฬาได้เต็มอรรถรส

เช่นเดียวกันกับอุตสาหกรรมภาพยนตร์ ที่เริ่มใช้ Speech-to-Text ทำ Subtitle มากขึ้น (จากรายงานของ The Hollywood Reporter) เนื่องจากมีต้นทุนต่ำกว่าและมีประสิทธิภาพสูงกว่าการทำด้วยมนุษย์ทั้งหมด อย่างไรก็ตาม ต่อให้จะใช้ AI เข้ามาทำ Subtitle แล้ว หลายบริษัทยังคงใช้มนุษย์เป็นขั้นตอนสุดท้ายในการตรวจสอบและปรับแก้คำบรรยายที่ AI สร้างขึ้นอยู่ดี

การใช้เทคโนโลยี Speech-to-Text ในวงการสื่อและภาพยนตร์ไม่เพียงแต่ช่วยประหยัดเวลาและต้นทุน แต่ยังช่วยให้เนื้อหาสามารถเข้าถึงผู้ชมได้กว้างขวางขึ้น ซึ่งเป็นประโยชน์ทั้งต่อผู้ผลิตและผู้บริโภคสื่อในยุคดิจิทัลนี้

ความท้าทายของการพัฒนาเทคโนโลยี Speech-to-Text

แม้เทคโนโลยี Speech-to-Text จะก้าวหน้าไปมาก แต่การจะพัฒนาให้สมบูรณ์แบบยังต้องเผชิญความท้าทายหลายประการ ทั้งในด้านภาษาศาสตร์ เทคนิคและการประยุกต์ใช้งานจริง มาดูกันว่ามีปัจจัยอะไรบ้าง ที่นักพัฒนาต้องเผชิญกับการยกระดับประสิทธิภาพเทคโนโลยีนี้

เสียงรบกวนและคุณภาพเสียง (Noise and Sound Quality)

การทำงานของ Speech-to-Text ในสภาพแวดล้อมที่เต็มไปด้วยเสียงรบกวน หรือมีคุณภาพเสียงที่ไม่ดี เช่น เสียงที่มีคนพูดพร้อมกัน เสียงรบกวนจากเครื่องจักร เสียงจราจร ฯลฯ คงเป็นเรื่องยากที่จะจับใจความและได้ยินถูกต้องหมดทุกคำ ดังนั้นการที่ระบบจะถอดเสียงได้ตรงกับเสียงที่ต้องการ จำเป็นต้องพัฒนา AI ให้มีความแม่นยำ แยกเสียงหลักออกจากเสียงรบกวนได้
การพูดพร้อมกันของหลายคน (Speaker Overlap)

ในสถานการณ์ที่มีคนพูดหลายคนพร้อมกัน หรือในประชุมที่หลายคนสลับกันพูดอย่างรวดเร็วปกติแล้วระบบ Speech-to-Text มักจะพบปัญหาในการแยกเสียงและถอดเสียงว่าใครเป็นผู้พูด แต่ด้วยเทคนิค Diarization ของ Speech-to-Text by WordSense ที่ช่วยแยกแยะเสียงผู้พูดเป็นข้อความได้แบบเรียลไทม์ ว่าใครกำลังพูดในขณะนั้น
ศัพท์เทคนิค (Technical Words)

แต่ละอุตสาหกรรมย่อมมีคำศัพท์เฉพาะ อย่าง การแพทย์ วิศวกรรม กฎหมาย เทคโนโลยี ฯลฯ ซึ่งมักเป็นคำที่ไม่พบในบทสนทนาทั่วไป Speech-to-Text เองจำต้องถูกฝึกฝนด้วยข้อมูลที่ครอบคลุมและเฉพาะทาง ต้องเข้าใจศัพท์เทคนิคเพื่อให้การใช้งานจริงเป็นไปอย่างประสิทธิภาพ ตรงตามความต้องการที่เฉพาะของแต่ละอุตสาหกรรม

ทำไมต้องใช้ Speech-to-Text by WordSense

Speech-to-Text by WordSense เป็นซอฟต์แวร์ AI-Powered ที่ Looloo Technology พัฒนาขึ้นเพื่อเพิ่มประสิทธิภาพการเก็บข้อมูล โดดเด่นเรื่องการประมวลผลไฟล์เสียงอัตโนมัติ ครอบคลุมทั้งการแปลงเสียงสนทนาของระบบคอลเซนเตอร์ การประชุม หรือบทสนทนาต่าง ๆ ไม่ว่าจะมีเสียงแทรก เสียงผู้พูดหลายคน ก็แปลงออกมาเป็นตัวอักษรได้ รวมถึงเข้าใจศัพท์เทคนิคในแต่ละอุตสาหกรรม

Speech-to-Text by WordSense คือผู้ให้บริการ Speech-to-Text ภาษาไทยเพียงรายเดียว ที่แยกเสียงและระบุตัวผู้พูดได้แม่นยำ
ปรับแต่งตามความต้องการของแต่ละบริษัท ให้รองรับปัญหาและการทำงานทุกรูปแบบ ได้แม่นยำและตรงจุด
พัฒนาระบบด้วยทีมวิศวกร AI ระดับโลก ด้วยประสบการณ์ทำงานกว่า 10 ปีที่ Google และเป็นหนึ่งในทีมพัฒนาระบบ Google Assistance
เชื่อถือได้กับความปลอดภัยข้อมูลตามมาตรฐานสากล ด้วยการจัดการความมั่นคงปลอดภัยสารสนเทศ ISO27001
ให้บริการทั้งรูปแบบ On cloud และแบบ On-premise ตามความต้องการของลูกค้า

Speech-to-Text by WordSense ต่างจากเจ้าอื่นอย่างไร?

เชี่ยวชาญภาษาไทยระดับสูง: Speech-to-Text by WordSense และ Biomedical and Data Lab มหาวิทยาลัยมหิดล ร่วมกันพัฒนา “ธนบุเรียนวิสเปอร์ Thonburian Whisper” โมเดล AI แปลงเสียงพูดเป็นข้อความภาษาไทย ที่ได้ชื่อว่าเป็นหนึ่งในโมเดลแปลงเสียงภาษาไทยตัวดังที่เป็นพื้นฐาน ให้หลาย ๆ บริษัทในไทยนำไปต่อยอด เพื่อพัฒนาระบบของตัวเอง
แปลงเสียงเป็นข้อความได้เรียลไทม์: Speech-to-Text ทั่วไป มักใช้เวลาประมวลผลค่อนข้างนาน แต่ Speech-to-Text by WordSense ประมวลผลได้แม่นยำเกือบเทียบเท่า Real-time ประหยัดเวลาในการทำงาน
เสนอข้อมูลให้พนักงานแนะนำลูกค้าได้เรียลไทม์: Speech-to-Text by WordSense จะจับคำพูดของลูกค้า เพื่อวิเคราะห์หาสินค้าได้ทันทีระหว่างการสนทนา เช่น ลูกค้าต้องการประกันแบบเหมาจ่ายไม่เกิน 100,000 บาทต่อปี ระบบจะทำการแปลงเสียงเป็นคำคีย์เวิร์ด แล้วค้นหาชนิดของประกันดังกล่าวขึ้นมาที่หน้าจอของเจ้าหน้าที่ ให้แนะนำลูกค้าได้แบบไม่ต้องเสียเวลาค้นหา

สรุปการใช้ Speech-to-Text ในอุตสาหกรรมชั้นนำ

Speech-to-Text เป็นเทคโนโลยีที่มีศักยภาพสูงในการปฏิวัติหลายอุตสาหกรรม โดยเฉพาะอย่างยิ่งในวงการประกันภัย แพทย์ สื่อและภาพยนตร์ ในด้านการแพทย์ เทคโนโลยีนี้ช่วยลดภาระงานเอกสารของแพทย์ ทำให้มีเวลาดูแลผู้ป่วยมากขึ้น และช่วยในการวิเคราะห์ข้อมูลเพื่อพัฒนาการวินิจฉัยโรค ส่วนในอุตสาหกรรมสื่อและภาพยนตร์ Speech-to-Text ช่วยในการสร้างคำบรรยายแบบเรียลไทม์ ซึ่งการนำเทคโนโลยีนี้มาใช้ไม่เพียงแต่เพิ่มประสิทธิภาพการทำงาน แต่ยังช่วยให้เนื้อหาและบริการต่าง ๆ เข้าถึงและเป็นประโยชน์กับผู้คนได้กว้างมากขึ้นด้วย

ติดตามเพจ Facebook : Thairath Money ได้ที่ลิงก์นี้ - https://www.facebook.com/ThairathMoney

Author

สหพัฒณ์ ล้ำสมบัติ
CEO บริษัท เวิร์ดเซนส์ จำกัด บริษัทในเครือ Looloo Technology ที่มีความเชี่ยวชาญด้าน OCR โดยเฉพาะ OCR Handwriting แปลงลายมือภาษาไทยเป็นข้อความดิจิทัล