"ÇöÁ¸ÇÏ´Â °¡Àå ¿ì¼öÇÑ AI ¹®¼Ã³¸® ¸ðµ¨"

Document Parse´Â ±âÁ¸ OCR ±â¼ú¿¡¼ ¸íÈ®ÇÑ ÀνÄÀÌ ¾î·Á¿ü´ø ¿©·¯ ¿ÀÇ ·¹À̾ƿôÀ̳ª Å×ÀÌºí µîÀ» Æ÷ÇÔÇÑ º¹ÀâÇÑ ÇüÅÂÀÇ ¹®¼¿¡¼µµ °¢ ±¸Á¶¿Í ÅØ½ºÆ® Á¤º¸¸¦ Á¤È®È÷ ºÐ¼®ÇØ µ¥ÀÌÅÍ ÀÚ»êȸ¦ °¡´ÉÇÏ°Ô ÇÑ´Ù.
¾î¶² Çü½ÄÀÇ ¹®¼µµ HTML°ú °°Àº ±¸Á¶ÈµÈ ÅØ½ºÆ® Çü½ÄÀ¸·Î ÀüÈ¯ÇØ ±â¾÷À̳ª ±â°ü¿¡¼ ½ÇÁ¦ LLM Ȱ¿ë ½Ã ¹Ù·Î Àû¿ëÇÒ ¼ö ÀÖ´Ù. ¾÷½ºÅ×ÀÌÁö´Â À̸¦ ÅëÇØ RAG ½Ã½ºÅÛ ¼º´É°ú LLMÀÇ ÀÀ´ä Á¤È®µµ¸¦ °áÁ¤ÇÏ´Â ÇÙ½É ¿ä¼ÒÀÎ µ¥ÀÌÅÍ Àüó¸® °úÁ¤¿¡¼ÀÇ Á¤È®¼º»Ó ¸¸ ¾Æ´Ï¶ó ¼Óµµ¿Í »ç¿ë¼º Ãø¸é¿¡¼µµ ÇöÀç °¡Àå Áøº¸ÇÑ ÇüÅÂÀÇ ¹®¼ ó¸® ±â¼úÀ» ¼±º¸ÀÌ°Ô µÆ´Ù°í °Á¶Çß´Ù.
¾÷½ºÅ×ÀÌÁö´Â °ü·Ã ±â¼úÀÇ ¼º´É ÃøÁ¤¿¡ Åë¿ëµÉ ¼ö ÀÖ´Â °´°üÀû ±âÁØ ¸¶·ÃÀ» À§ÇØ ¹®¼ ±¸Á¶ ºÐ¼® º¥Ä¡¸¶Å©ÀÎ DP-Bench¸¦ ÇÔ²² °ø°³Çß´Ù.
°á°ú¿¡ µû¸£¸é Document Parse´Â ·¹À̾ƿô ¹× Å×ÀÌºí ±¸Á¶, ÄÜÅÙÃ÷ ºÐ¼® µî Á¤È®¼ºÀ» ÃøÁ¤ÇÏ´Â ¸ðµç ÁöÇ¥¿¡¼ ¾Æ¸¶Á¸À¥¼ºñ½º(AWS)¿Í ¸¶ÀÌÅ©·Î¼ÒÇÁÆ®(MS)¸¦ Æ÷ÇÔÇÑ ºòÅ×Å© 5°³»çÀÇ °ü·Ã ¼ºñ½º¿Í ºñ±³ÇØ, 5% ÀÌ»ó ³ôÀº Á¡¼ö¸¦ ¹Þ¾Ò´Ù. ¼Óµµ¸é¿¡¼µµ Document Parse ´Â 1ºÐ¿¡ 100ÀåÀ» ó¸®ÇÏ¿© °°Àº ±âÁØÀ» Àû¿ëÇÑ AWS Texttract¿Í´Â 10¹è, LamaParse º¸´Ù´Â 5¹è °¡·® ºü¸¥ ´É·ÂÀ» º¸¿´´Ù.
¶Ç DOCX, PDF, PPTX, PNG µî ¾÷¹«¿¡ »ç¿ëÇÏ´Â 9Á¾ÀÇ ¹®¼ 󸮻Ӹ¸ ¾Æ´Ï¶ó ¼ö½Ä ÀÎ½Ä ¹× À̹ÌÁö ÃßÃâ°ú °°Àº »õ·Î¿î ±â´ÉÀ» Ãß°¡Çß´Ù. HTML ¿Ü¿¡µµ Çì´õ ¹× Å×ÀÌºí ¿ä¼Ò¸¦ ¸¶Å©´Ù¿î Çü½ÄÀ¸·Î Á¦°øÇØ LLM »ç¿ëÀÚ°¡ ÀÔ·Â ¹®¼ÀÇ ÅäÅ« Å©±â¸¦ ÁÙÀÏ ¼ö ÀÖ´Ù´Â °Í ¿ª½Ã Å« °Á¡ÀÌ´Ù.
¾÷½ºÅ×Áö´Â "°ø½ÄÀûÀ¸·Î OCR ¼ºñ½º¸¦ ¼±º¸ÀÎ Á÷ÈÄÀÎ 2023³â ±Û·Î¹ú ÃÖ°í ±ÇÀ§ÀÎ ÀΰøÁö´É(AI) OCR °æÁø´ëȸ ICDAR¿¡¼ ¾Æ¸¶Á¸°ú ¿£ºñµð¾Æ µîÀÇ ºòÅ×Å©¸¦ Á¦Ä¡°í ¾ÐµµÀûÀÎ 1À§¸¦ Â÷ÁöÇÑ ¹Ù ÀÖ´Ù"¸ç "¾÷±×·¹À̵åµÈ ±â¼ú·ÂÀº º¸¾ÈÀÌ ÇʼöÀûÀÎ ±ÝÀ¶±Ç ¹× Á¦Á¶¾÷ ÁÖ¿ä ±â¾÷À» ºñ·ÔÇØ, ÇâÈÄ ´ë±Ô¸ð ¹®¼ÀÇ µðÁöÅÐ ÀüȯÀ» ÅëÇØ LLM Ȱ¿ë ¿¹Á¤ÀÎ Àü »ê¾÷ ¿µ¿ª¿¡¼ À¯¿ëÇÏ°Ô È°¿ëµÉ Àü¸ÁÀÌ´Ù"¶ó°í ¸»Çß´Ù.
¾÷½ºÅ×ÀÌÁö ±è¼ºÈÆ ´ëÇ¥´Â "Document Parse ´Â °¢ ±â¾÷ÀÌ °¡Áø ±âÁ¸ ¹®¼¸¦ °¡Àå Á¤È®ÇÏ°Ô ÀÚ»êȽÃÄÑ LLMÀ» ½ÇÁ¦ ¾÷¹«¿¡ Áï°¢ È¿À²ÀûÀ¸·Î Àû¿ëÇÒ ¼ö ÀÖµµ·Ï ¸¸µå´Â ÃÖÀûÀÇ µµ±¸"¶ó¸ç "´Ù¾çÇÑ ºñÁî´Ï½º¿¡¼ Ȱ¿ëµÇ¾î ¾÷¹« Çõ½ÅÀ» Çö½ÇÈÇÒ °Í"À̶ó°í ¸»Çß´Ù.
À¯Áø¾Æ±âÀÚ gnyu4@dt.co.kr
[ ÀúÀÛ±ÇÀÚ ¨ÏµðÁöÅПÀÓ½º, ¹«´Ü ÀüÀç ¹× Àç¹èÆ÷ ±ÝÁö ]