ปฏิเสธไม่ได้ว่า การทำงานกับเอกสารถือเป็นงานที่ใช้เวลาและสิ้นเปลืองทรัพยากรบุคลากรอยู่ไม่น้อย แต่ในยุคดิจิทัลที่เทคโนโลยีเข้ามามีบทบาทสำคัญในการขับเคลื่อนธุรกิจ ปัญหาเหล่านี้แก้ไขได้ด้วยเทคโนโลยีปัญญาประดิษฐ์ (AI) ซึ่งอยู่ในรูปแบบของ OCR (Optical Character Recognition) หรือเรียกง่าย ๆ ว่าการแปลงข้อความเอกสารจากกระดาษทั้งลายมือและตัวพิมพ์ ให้อยู่ในรูปแบบของข้อความดิจิทัล ช่วยให้การจัดการเอกสารเป็นเรื่องง่าย ลดเวลาการทำงาน ในขณะเดียวกันเพิ่มประสิทธิภาพและทำกำไรให้ธุรกิจได้มากขึ้น
ขณะเดียวกันบริษัทวิจัยด้านการตลาดของสหรัฐฯ Grand View Research ระบุว่า ตลาดของเทคโนโลยี OCR ทั่วโลกจะเติบโตขึ้นอย่างต่อเนื่อง คาดว่าจะมีอัตราการเติบโตเฉลี่ยต่อปี (CAGR) อยู่ที่ 13.7% และมีแนวโน้มจะมีมูลค่าถึง 25.6 พันล้านดอลลาร์ภายในปี 2027 โดยตัวเลขเหล่านี้ แสดงให้เห็นถึงความต้องการใช้ OCR ที่เพิ่มขึ้นอย่างต่อเนื่องในหลาย ๆ กลุ่มธุรกิจ
นอกจากนี้ยังพบว่า บริษัทที่นำ OCR มาใช้ทำงานแล้ว ลดค่าใช้จ่ายในการจัดการเอกสารและเวลาที่ใช้ในการประมวลผลข้อมูลลงถึง 20-30% เมื่อเทียบกับวิธีการแบบเดิม
ด้วยความที่เทคโนโลยีถูกพัฒนาและเปลี่ยนแปลงไปอย่างรวดเร็ว หลาย ๆ คนอาจจะยังไม่คุ้นเคยกับ OCR ว่าคืออะไร? และยังนึกไม่ภาพไม่ออกว่า สิ่งนี้จะเป็นประโยชน์ต่อธุรกิจเราอย่างไรบ้าง?
ลองคิดตามง่าย ๆ ไปพร้อมกัน องค์กรของคุณมีกระดาษเอกสารที่มีลายมือ/ตัวพิมพ์ ซึ่งเต็มไปด้วยข้อมูลมากมายในนั้น อยู่มาวันหนึ่ง คุณต้องการนำข้อมูลเหล่านั้นเปลี่ยนสภาพไปอยู่ในรูปแบบของข้อความดิจิทัล เพราะต้องการนำ Data ดังกล่าวไปใช้ประโยชน์ต่อ แทนที่จะให้พนักงานทีละคนพิมพ์ข้อความทีละประโยคด้วยมือ คุณสามารถใช้เทคโนโลยี OCR หรือ Optical Character Recognition เข้ามาช่วยทำสิ่งเหล่านี้ได้แบบอัตโนมัติ
OCR ทำงานโดยการใช้ AI อ่านภาพหรือสแกนเอกสารที่เป็นตัวอักษร จากนั้นจะแปลงข้อมูลทั้งหมดให้กลายเป็นข้อความดิจิทัล ซึ่งสามารถแก้ไข ค้นหาและจัดเก็บในคอมพิวเตอร์ได้อย่างเป็นระบบ เป็นเทคโนโลยีที่เข้ามาช่วยลดความผิดพลาดของมนุษย์ Human Error และประหยัดเวลาการทำงานได้มากกว่าเดิม ทำให้การจัดการข้อมูลเป็นเรื่องง่ายขึ้น ที่สำคัญได้งานที่ถูกต้องและมีประสิทธิภาพกว่าเดิม ในระยะเวลาทำงานที่น้อยลง
การพัฒนาเทคโนโลยี AI : OCR เป็นเรื่องยาก เพราะประกอบไปด้วยหลาย ๆ ปัจจัย ทั้งเรื่องของคุณภาพความคมชัด ขนาดไฟล์ รูปแบบฟอนต์มีหัวไม่มีหัว ฟอนต์บางตัวที่ลายเส้นอ่านยากบ้าง ไปจนถึงรูปแบบของภาษา โดยเฉพาะภาษาไทยที่มีระดับภาษาที่ซับซ้อน วรรณยุกต์และตัวสะกดที่หลากหลาย ไหนจะคำพ้องเสียง คำพ้องรูปที่ยากต่อการแปลงให้ออกมาถูกต้องและแม่นยำ
1.คุณภาพของภาพหรือเอกสาร (Image Quality)
ความละเอียด (Resolution) และความคมชัด (Sharpness) ภาพที่มีความละเอียดและความคมชัดสูงจะช่วยให้ OCR ตรวจจับรายละเอียดของตัวอักษรได้ดีและมีผลลัพธ์ที่แม่นยำสูง ส่วนภาพที่รายละเอียดต่ำ เบลอหรือไม่ชัดเจน OCR จะทำงานได้ยากขึ้น เสี่ยงต่อการผิดพลาดได้ง่ายกว่าภาพที่ชัด
คอนทราสต์ (Contrast) ยิ่งตัวอักษรมีสีที่แตกต่างกับพื้นหลังชัดเจน (คอนทราสต์สูง) จะช่วยให้ OCR อ่านข้อมูลได้ดีขึ้น เช่น ตัวอักษรสีดำบนพื้นขาว ฯลฯ ส่วนภาพที่มีคอนทราสต์ต่ำ อาจทำให้ OCR แปลงข้อมูลผิดพลาดได้ง่าย
2.รูปแบบฟอนต์ (Font Type)
ฟอนต์มาตรฐาน : ชัดเจน อ่านง่าย เช่น Times New Roman หรือ Arial จะทำให้ OCR ทำงานได้แม่นยำฟอนต์ที่ซับซ้อนหรือเป็นมีความเฉพาะ : ฟอนต์ที่มีการตกแต่งมากเกินไป ฟอนต์ลายมือ หรือฟอนต์ที่ลายเส้นมีลักษณะโค้งมน อาจทำให้ OCR สับสนและแปลงข้อมูลออกมาได้ไม่แม่นยำ
3.ลักษณะของเอกสาร (Document Layout)
เอกสารประเภทรายงาน เรียงความ หรือเอกสารที่มีการจัดเรียงตัวอักษรที่เป็นระเบียบ จะช่วยให้ OCR ทำงานง่ายขึ้น เอกสารบัญชีที่มีความซับซ้อน เอกสารที่มีรูปภาพ กราฟิก หรือตัวอักษรที่ซ้อนกัน อาจทำให้ OCR แยกแยะตัวอักษรได้ยากขึ้น เอกสารที่เก่าเอกสารที่มีรอยเปื้อน รอยพับ หรือถูกถ่ายเอกสารหลายครั้ง ย่อมส่งผลต่อความแม่นยำของ OCR
ความแม่นยำของแปลงข้อความด้วย OCR มักใช้วิธีการเปรียบเทียบผลลัพธ์การแปลงข้อความเทียบกับข้อความต้นฉบับที่ถูกต้อง โดยวัดกันด้วยค่าเฉลี่ยที่เรียกว่า Accuracy Rate หรือ Character Error Rate (CER)
Accuracy Rate เปอร์เซ็นต์ของจำนวนตัวอักษรที่ OCR แปลงถูกต้องเทียบกับจำนวนตัวอักษรทั้งหมดในเอกสารต้นฉบับ ถ้ามีความแม่นยำสูง ก็หมายความว่า OCR สามารถแปลงข้อความได้ถูกต้องเกือบทั้งหมด ตัวอย่างเช่น ในเอกสารมีคำว่า “ไก่ ไข่ งู ปลา นก” แต่ OCR แปลงเป็นข้อความดิจิทัลได้ว่า “ไก่ ไข่ งู ปลา นถ” ผิดไป 1 คำ ถูกทั้งหมด 4 ใน 5 หมายความว่า Accuracy Rate ของ OCR นี้อยู่ที่ 80%
Character Error Rate (CER) อัตราส่วนของจำนวนตัวอักษรที่แปลงผิดต่อจำนวนตัวอักษรทั้งหมดในเอกสาร วิธีการนี้มักใช้ในการวัดคุณภาพของการแปลงข้อความที่มีรายละเอียด เช่น ลายมือที่เขียนไม่ชัดเจน หรือมีการเชื่อมต่อระหว่างตัวอักษรที่ยากต่อการแยก
ตัวอย่างเช่น ในเอกสารมีคำว่า “กะเพรา” โดยคำนี้มีตัวอักษรทั้งหมด 6 ตัว แต่ OCR แปลงเป็นข้อความดิจิทัลได้ว่า “กะเพา” เหลือตัวอักษร 5 ตัวจากทั้งหมด 6 ตัว อ่านถูกแค่ 5 ใน 6 หมายความว่า Character Error Rate ของ OCR นี้อยู่ที่ 83%
OCR by WordSense บริษัทในเครือ Looloo Technology ถือเป็นเจ้าแรก ๆ ในตลาด OCR ไทยตอนนี้ ที่มีความแม่นยำสูงในการอ่านลายมือภาษาไทยเป็นอันดับต้น ๆ โดยเฉพาะจุดเด่นอย่าง “OCR Handwriting แปลงลายมือภาษาไทยเป็นข้อความดิจิทัล” ทั้งนี้ยืนยันความแม่นยำด้วยตัวเลข Average Accuracy Rate ตั้งต้น ซึ่งหมายความว่า ความแม่นยำของ OCR by WordSense ไม่ได้หยุดอยู่ที่ตัวเลขนี้ ยิ่งคุณใช้งาน OCR ของเราเท่าไร ระบบก็ยิ่งเรียนรู้และพัฒนาขึ้นอยู่เรื่อย ๆ ประมาณว่า ยิ่งใช้ยิ่งเก่งนั่นเอง
Average Accuracy Rate ตั้งต้นของ OCR by WordSense
นอกจากนี้ WordSense ยังมีเทคโนโลยี AI ด้าน Speech-to-Text บริการการแปลงเสียงพูดเป็นข้อความ เป็นอีกหนึ่งใน Solutions หลัก ด้วยความเชื่อที่ว่า การทำให้ข้อมูลเป็นสิ่งเข้าถึงได้ง่าย สะดวกและนำไปใช้ได้ทันที "Human Data Made Ready" คือเป้าหมายของเรา
1.ความหลากหลายของลายมือ
ความยากข้อแรกหนีไม่พ้นเรื่องความแตกต่างและความหลากหลายของลายมือ ต่อให้เป็นตัวอักษรเดียวกัน 10 คนก็เขียน 10 แบบ ทั้งรูปแบบการเขียน ขนาดตัวอักษร การต่อเชื่อมระหว่างตัวอักษร ฯลฯ ยิ่งในภาษาไทยที่ลักษณะตัวอักษรมีความซับซ้อน บางตัวมีหาง มีหยัก มีวงกลม ฯลฯ ที่สำคัญมีมากถึง 44 ตัว จึงทำให้การแปลงลายมือเป็นข้อความดิจิทัลเป็นงานที่ซับซ้อน กว่าการอ่านตัวพิมพ์ที่มีมาตรฐานเดียวกัน
2. ข้อมูลลายมือที่ต้องให้ระบบเรียนรู้ หาได้ยาก
แม้เอกสารที่มีลายมือภาษาไทยจะมีอยู่มากก็จริง แต่โดยมากมักอยู่ในแบบฟอร์มที่เกี่ยวข้องกับข้อมูลส่วนบุคคล มีความจำเพาะไม่ใช่เอกสารทั่วไป คือเป็นข้อมูลที่ไม่สามารถนำมาให้ระบบเรียนรู้ได้นั่นเอง
3. OCR Handwriting พัฒนาด้วย Frontier Technology ที่ต้องอาศัยความเชี่ยวชาญขั้นสูงจากทีมวิศวกร MLE
ด้วยความซับซ้อนของการประมวลผลลายมือภาษาไทย ที่เต็มไปด้วยความหลากหลายและไม่เป็นมาตรฐาน การพัฒนาโมเดล AI สำหรับ OCR Handwriting ให้เกิดประสิทธิภาพ จำเป็นต้องใช้ “Frontier Technology” เทคโนโลยีแนวหน้าที่ล้ำสมัยแห่งยุค และด้วยความที่เป็นเทคโนโลยีล้ำสมัย สิ่งตามมาคือความยากในการพัฒนา เพราะ Frontier เป็นเทคโนโลยีที่ไม่เคยมีอยู่บนโลกนี้มาก่อน บวกกับเป็นเทคโนโลยีเชิงลึก (Deep Tech) ทำให้ต้องผ่านการวิจัยและพัฒนา (Research and Development) ที่ซับซ้อน เพื่อมุ่งไปสู่การค้นพบเทคโนโลยีใหม่
ถึงตรงนี้หลายคนอาจจะยังนึกไม่ออกว่า Frontier Technology คืออะไร จริง ๆ แล้วเทคโนโลยีนี้ผ่านหูผ่านตาเรากว่าที่คิด ไม่ว่าจะเป็น ปัญญาประดิษฐ์ หุ่นยนต์ การตัดต่อทางพันธุกรรม เทคโนโลยีควอนตัม การพัฒนาด้านชีวสารสนเทศที่นำไปสู่การค้นพบวิธีการรักษาโรคแบบใหม่ ฯลฯ
ด้วยความยากและความซับซ้อนของ Frontier Technology ทำให้ทีมวิศวกร MLE (Machine Learning Engineer) ที่ต้องพัฒนา OCR Handwriting จำเป็นต้องมีความเชี่ยวชาญระดับสูง เป็นตัวท็อปของโลกที่มีความ Deep มากๆ ในระดับ Frontier ไม่แพ้กับตัวเทคโนโลยีเลยก็ว่าได้ เพราะการสร้างโมเดลที่ต้องรองรับกับความแตกต่างของลายมือที่หลากหลายมาก ๆ แล้ว ขณะเดียวกันตัวระบบเองก็ต้องจัดการกับข้อมูลคุณภาพต่ำอีกจำนวนมากเช่นเดียวกัน
ดังนั้นวิศวกรที่พัฒนาระบบนี้ต้องเชี่ยวชาญเป็นอย่างมาก พอที่จะรองรับความซับซ้อนหลาย ๆ อย่างได้พร้อมกัน ทั้งนี้ส่วนหนึ่งต้องมีความเข้าใจในเรื่องของ Image Processing และการปรับแต่งโมเดล AI ให้ทำงานกับข้อมูลที่ซับซ้อนได้อย่างแม่นยำและมีประสิทธิภาพ
แน่นอนว่าทีมวิศวกร MLE ของ OCR by WordSense ทำสิ่งเหล่านี้ให้เกิดขึ้นได้ ด้วยความแม่นยำ Average Accuracy Rate ตั้งต้นที่ 92%
จะเห็นว่า ทุกวันนี้เทคโนโลยี OCR กำลังเปลี่ยนแปลงวิธีการจัดการเอกสารในธุรกิจให้กลายเป็นเรื่องง่ายและมีประสิทธิภาพมากขึ้น กลุ่มธุรกิจต่าง ๆ เริ่มนำ OCR มาใช้เพื่อช่วยให้ลดต้นทุน และเพิ่มประสิทธิภาพในการทำงาน นอกจากจะขยายกลุ่มไปยังธุรกิจที่หลากหลายมากขึ้นแล้ว เชื่อว่าอนาคต OCR เองจะถูกพัฒนาให้กลายเป็นร่างทองที่เก่งและกว้างขึ้น พร้อมทำงานร่วมกับระบบอื่น ๆ มากกว่าเดิม
จริง ๆ แล้ว RPA เป็นเทคโนโลยีที่ใช้แพร่หลายอยู่แล้วตามบริษัทใหญ่ ๆ เพื่อเพิ่มประสิทธิภาพในการทำงาน และลดภาระงานพนักงานลง เพื่อให้ใช้เวลาไปกับงานที่ต้องใช้ความคิดสร้างสรรค์มากขึ้น โดย RPA จะเข้ามาช่วยจัดการงานอะไรที่ต้องทำซ้ำ ๆ และต้องการความแม่นยำสูง ระบบอัตโนมัติดังกล่าวจะรันให้กระบวนการทำงานซับซ้อนต่าง ๆ ดำเนินไปเองได้โดยอัตโนมัติ 24 ชั่วโมง เช่น การแปลงเอกสารทางบัญชีแล้วนำไปประมวลผลต่อเนื่องในระบบ ERP หรือการจัดการคำขออนุมัติสินเชื่อในธนาคาร เป็นต้น
แน่นอนว่า การนำเทคโนโลยี OCR มาเสริมกับ RPA จะช่วยให้การแปลงข้อมูลจากเอกสารที่เป็นกระดาษ รูปภาพหรือไฟล์ PDF แม่นยำและมีประสิทธิภาพมากขึ้น รวมถึงเปลี่ยนขั้นตอนการทำงานบางอย่างให้เป็นไปโดยระบบอัตโนมัติ เช่น การประมวลผลใบแจ้งหนี้ การจัดการข้อมูลลูกค้า การจัดเก็บข้อมูลในระบบ ฯลฯ ที่สำคัญการนำทั้งสองเทคโนโลยีนี้มาใช้ด้วยกันช่วยลดเวลาในการประมวลผลข้อมูลได้ถึง 30-50% เมื่อเทียบกับการทำงานแบบเดิม ที่สำคัญการยังลดค่าใช้จ่ายได้ถึง 70%
การรวมกันของ RPA และ OCR ว่าเจ๋งแล้ว เมื่อผสานเข้ากับเทคโนโลยีปัญญาประดิษฐ์ (AI) ที่เราน่าจะได้เห็นมากขึ้นในอนาคต ยิ่งเสริมให้การทำงานสะดวกและเป็นไปอย่างมีประสิทธิภาพขึ้นกว่าเดิม โดยตัว AI จะเข้ามาเพิ่มความสามารถด้านการวิเคราะห์ และการประมวลผลข้อมูลซับซ้อนให้ยอดเยี่ยมและแม่นยำขึ้น ที่สำคัญความเจ๋งของตัวระบบ AI คือไม่เคยหยุดที่จะเรียนรู้ ยิ่งทำงานยิ่งพัฒนา ปรับปรุงการทำงานให้ดีขึ้นอย่างต่อเนื่อง ทั้งหมดนี้เป็นเหตุผลว่าทำไมองค์กรใหญ่ ๆ ทั่วโลกถึงนำเทคโนโลยีเหล่านี้มาใช้อย่างรวดเร็ว
Multimodal OCR คือการรวมเทคโนโลยี OCR ที่สามารถแยกแยะข้อมูลจากหลายแหล่ง เช่น ข้อความ, รูปภาพ, และเสียง เข้าด้วยกัน เมื่อผสานเข้ากับ Generative AI ที่สามารถสร้างข้อมูลใหม่จากข้อมูลที่มีอยู่ ยิ่งยกระดับการทำงาน ให้เกิดการวิเคราะห์และสร้างเนื้อหาที่มีความหมายและซับซ้อนมากขึ้น
พนักงานขาย : แปลงภาพใบเสร็จและเสียงสนทนากับลูกค้า เป็นข้อมูลดิจิทัลที่สรุปได้โดยอัตโนมัติ
ธุรกิจประกันภัย : ใช้ OCR ในการสแกนเอกสารและรูปถ่ายความเสียหายจากอุบัติเหตุ จากนั้นใช้ Generative AI สร้างรายงานการเคลมประกันที่มีความละเอียดและครอบคลุมภายในไม่กี่วินาที
งานบริการ Customer Support : ตอบสนองลูกค้าได้ดีขึ้น เช่นให้คำแนะนำผลิตภัณฑ์ที่เฉพาะเจาะจงตามความต้องการของลูกค้า และการสร้างเอกสารตามความต้องการของลูกค้าได้แบบอัตโนมัติ
ด้วยความก้าวหน้าของเทคโนโลยี AI และ Machine Learning เชื่อว่า Handwriting OCR จะถูกพัฒนาให้มีความแม่นยำสูงขึ้นอย่างต่อเนื่อง อ้างอิงจาก Research and Markets คาดว่า ตลาด Handwriting OCR จะเติบโตเฉลี่ย 15.3% ต่อปีระหว่างปี 2021-2026 ซึ่งสะท้อนถึงความสามารถที่เพิ่มขึ้นของเทคโนโลยีในการจัดการกับลายมือที่มีความซับซ้อนและการใช้งานที่แพร่หลายขึ้น
นอกจากนี้เชื่อว่า Handwriting OCR จะขยายการใช้งานไปในวงกว้างมากขึ้น โดยเฉพาะในแวดวงการศึกษาและการแพทย์ ตัวอย่างเช่น แปลงบันทึกของแพทย์ที่เขียนด้วยลายมือเป็นข้อมูลดิจิทัลได้อย่างรวดเร็วและแม่นยำ ช่วยให้การดูแลผู้ป่วยมีประสิทธิภาพมากขึ้น หรืออย่างในหน่วยงานรัฐที่ต้องจัดการกับเอกสารจำนวนมากที่ยังคงเขียนด้วยลายมือ ตลอดจนนักวิจัยหรืออาจารย์ ที่ยังจำเป็นต้องตรวจสอบและประเมินผลงานของนักเรียนในเอกสาร ที่ยังอยู่ในรูปแบบลายมือ
หากธุรกิจต้องการก้าวสู่ความสำเร็จในยุคดิจิทัล การนำ OCR มาใช้เป็นสิ่งที่ไม่ควรมองข้าม จากข้อมูลทั้งหมด จะเห็นได้ว่าการใช้งาน OCR ไม่เพียงแต่เป็นการปรับตัวเข้าสู่โลกดิจิทัล แต่ยังเป็นการเพิ่มโอกาสในการแข่งขันและการเติบโตของธุรกิจในระยะยาวอีกด้วย