이수시스템 블로그

Japan IT Week 2019에서 알아보는 PAPERLESS로의 행보

Japan IT Week 2019 관람기 : 페이퍼리스와 일본의 문자 인식

 

 Japan IT WEEK 2019는 크게 전시장 두 곳에서 각각 다른 주제로 진행되었습니다. 서관에는 주로 데이터 센터, 전자상거래 그리고 모바일 부스가 있었습니다. 청관에서는 실제로 보려고 했던 분야인 AI와 클라우드 등의 전시가 있어 서관보다 더 오랜 참관 시간을 더 가졌습니다. 실제로 요즘 유행하는 IT의 키워드가 모두 청관에 있기도 했고, 대형 부스들에서 홍보하는 제품들로도 요즘 일본의 IT 동향을 알 수 있었습니다.

 

[ 출처: 이수시스템 ]

 가장 눈에 띄었던 것은 요즘 추세라고 하기엔 꽤 예전부터 유행했던 아이템인 OCR*과 AI(인공지능), 그리고 RPA1)의 조합이었습니다. OCR+AI의 솔루션을 판매하는 곳이 많았으며, OCR+AI+RPA의 패키지를 판매하는 곳도 많았습니다. 필자인 제가 제작해왔던 프로그램과는 다소 거리가 있었기에 생소한 느낌이 들어 왜 이런 솔루션을 판매하는 부스가 많은지 여쭤보았는데요. 일본은 아직 수기 작성을 요구하는 곳이 많기 때문이라는 답변을 들을 수 있었습니다.

 

 우리나라에서는 세금 계산서 발행 시 주로 이메일로 전달할 수 있기에 대부분 전자문서 형태로 사용합니다. 하지만 일본에서는, 고객이나 타 회사에 문서를 전달할 때 이메일보다 직접 출력해서 전달하는 것을 많이 요구한다고 합니다. 따라서 전달받은 출력 문서를 전산화하기 위해 OCR 솔루션을 이용하게 됩니다. 추가 작업이 요구되지만, 그것 또한 일본 문화의 하나인 듯합니다.

 

 또 신기했던 점은 많은 솔루션이 같은 엔진을 사용하고 있다는 것이었습니다. 바로 OCR에서 주로 사용하는 ‘ABBYY’ 엔진인데요, 전시회에 별도 부스로 참가했다고 하여 둘러보았습니다. 글로벌 회사이기 때문에 한국 회사 중에도 사용하는 곳이 있고 한글 지원도 가능하다고 합니다. 그래서 이번 글에서는 전시회에서 봤던 제품보다 주로 많이 사용된다고 하는 OCR 엔진을 간단히 소개해보고자 합니다.

 

 

종이 문서를 컴퓨터 속으로!

 

 OCR* 자체의 뜻은 광학 문자 인식(Optical Character Recognition)으로 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것입니다. 우편번호 추출을 통한 우편물 관리, 자동차 번호판 인식, 모바일 기기를 사용한 명함 인식 등이 바로 OCR이 적용되는 분야입니다. 초기에는 문자 패턴을 배열 형태로 분류하여 이를 원형과 비교하거나 문자에서 특징 벡터를 추출해 인식하고, 또는 문자의 구성 요소들을 통해 문자를 인식하였습니다. 최근에는 인간의 뇌 구조를 모형화한 인공 신경망 모델이 가장 많이 활용되고 있는데요. 음성, 문자, 이미지 분석 등 계산량이 많고 병렬성이 요구되는 문제를 해결하고 있습니다.

 

 Abbyy 자체 솔루션과 Abbyy 엔진을 사용하고 있는 솔루션 모두 비슷한 흐름을 가지고 있었는데요, 바로 사용자가 미리 지정한 서식(엑셀, 워드 등)의 문서를 스캔하면 데이터가 있는 부분을 읽어서 저장하는 구조라는 점입니다. Abbyy 엔진을 사용하고 있는 솔루션의 형태는 웹이나 어플리케이션 등 다양했지만, 그 모습과 동작 자체는 매우 닮아있었습니다. 솔루션 안에서 가장 중요한 역할을 하는 Abbyy 엔진은 스캔한 문서의 내용을 읽고 분석할 수 있어서 다른 양식의 문서나 포맷으로 변환하는 것을 가능하게 합니다. 심지어 한국어 인식률은 타 OCR에 비해서도 월등히 높다고 합니다. 실제로 한국에 ‘find Reader’ 등의 제품이 있고, 많은 대기업에서도 사용하고 있었습니다. 비록 한글 OCR 솔루션이 러시아 회사라는 점이 씁쓸하긴 하지만, 시험판을 사용해보는 것도 나쁘지 않을 듯합니다. Abbyy 자체도 뛰어난 OCR 솔루션을 가지고 있었지만, 일본 국내 사정에 맞게 조금 더 개별화된 사용자 인터페이스를 제공하기 위해 많은 기업이 Abbyy 솔루션을 채택하여 사용하는 듯합니다.

 

[ 출처: 이수시스템 ]

 위와 같이 미리 지정한 양식에서 가독성을 높이기 위해 각각의 블록에 어떤 데이터 타입들이 들어올지 지정할 수 있습니다. 이러한 방식은 Abbyy 엔진을 사용하는 회사 대부분이 비슷하게 구현되어있었습니다. 어떤 회사는 위 양식을 웹이나 모바일로 입력할 수 있도록, 또는 단지 스캔한 데이터에 대한 처리만을 해주는 등 다른 곳과 차별성을 두려고 노력하였으나 역시 너무 비슷하다는 느낌은 지울 수 없었습니다.

 

 전시장을 돌면서 ‘왜 문서를 스캔하려고만 할까?’ 라는 의문이 들었습니다. ‘애초에 문서 자체를 전산화하면 되지 굳이 왜 문서를 출력해서 작성한 뒤 다시 스캔해서 해석하는 걸까.’ 위에서도 언급했듯이 일본 문화에 직접 서류를 주고받는 것이 정중하다고 여겨지는 부분도 있을 것이고, 일본 사회에서 실제 일하는 노동인구의 노령화도 한몫하지 않을까 싶었습니다. 아무래도 젊은 우리도 일하는 방식이 바뀌는 것을 크게 반기지 않는데 수십 년 동안 같은 방식으로 일해온 분들이 새로운 시스템에 맞게 일하는 방식을 바꾸기란 쉽지 않을 것입니다. 이렇게 OCR 솔루션으로 읽어온 문서를 처리하는 비용은 구축비와는 별도로 장당 책정이 됩니다. 비용적인 면에서 생각해보면, 초기에 비용을 들여 전자문서 시스템을 구축하는 것이 더 나은 것 같기도 합니다(엔진을 사용할 경우 엔진에 대한 월 과금은 엔진을 사용하는 솔루션 비용에 책정되기 때문에 기본적으로 높은 듯합니다). 수기로 작성한 데이터를 변환함에서, 더 정확한 데이터를 뽑아내기 위해서는 OCR도 여러 AI 엔진을 이용하여 특정 인물의 패턴이나 인식률이 낮은 구간 등 여러 형태의 데이터를 뽑아내야 합니다. 어떤 OCR 엔진이라도 인식률이 100% 완벽하다고는 보장할 수 없기 때문입니다. 만약 특정 순간에 반드시 사람이 직접 개입하여 처리해야 하는 부분이 있다면 그것은 다시 비용과 직결됩니다.

 

 

[ 출처: unsplash ]

 태블릿이 보편화 되면서 우리는 태블릿에 직접 서명을 하거나 태블릿의 양식에 글자를 입력하는 등 진정한 의미의 페이퍼리스에 다가가고 있습니다. 태블릿이 전자 문서를 작성하기 위한 메인 아이템으로 부상하면서 은행이나 관공서 등에도 민원인을 위한 태블릿이 설치되기 시작했습니다. 그리고 좀 더 정확한 정보를 입력받기 위해 애* 사에선 블루투스가 탑재된 고가의 펜슬 제품이 나오기도 했지요. 하지만 아이러니하게도 이 펜슬은 같은 회사의 제품과의 호환성을 가질 뿐 메인이 태블릿이라는 사실엔 변함이 없습니다. 민원인을 상대하기 위해 고정으로 설치된 태블릿과 다르게 업무에 전자 문서를 활용하기 위해서는 더 간편해질 필요가 있지 않을까요? 물론 노트북에서 태블릿으로의 진화는 대단하지만, 발상의 전환을 한다면 무거운 태블릿을 들고 다닐 필요 없이, 기존의 일하는 방식과 크게 다르지 않게 페이퍼리스에 다가갈 필요가 있습니다.

 

 전자펜 또한 데이터 인식률을 높이기 위해 여러 방법을 쓰고 있는데요. 아직 태블릿에 입력하는 것이 불편하고 태블릿을 들고 이동하는 것에 부담이 있는 경우, 전자펜은 일하는 사람의 업무 방식에 크게 영향을 주지 않으면서도 많은 과정을 단축해주고 데이터의 안정성을 확보해 줄 수 있다는 점에서 유일무이한 솔루션입니다. 굳이 새로운 업무 환경을 익히지 않더라도, 노동자들은 기존의 업무방식 도구를 펜으로 바꾸는 것만으로써 그 후의 일 처리를 모두 자동화 할 수 있습니다. 이미 작성된 문서를 스캔하는 문서기반 OCR과는 다르게, 문서를 작성하는 동안의 모든 데이터가 수집되기 때문에 글자를 쓰는 방향이나 글자를 쓴 획 등 보다 상세한 정보를 기록할 수 있습니다. 이를 통해 펜을 사용하는 인물마다 특정 패턴을 생성할 수 있게 되므로, 필기 인식률을 월등히 높일 수 있습니다.

 

 

 정확한 데이터 입력의 중요성이 점점 커지고 있기에, 수기로 입력한 원본 데이터의 보존이 가능한 점은 전자펜만의 큰 강점입니다. 이미 가공된 데이터를 누군가 변경한다면 흔적을 지우기 쉽지만, 실제 입력한 사람의 필체를 그대로 보존하고 있다면 데이터의 출처가 분명하기 때문이죠. 이러한 전자펜의 장점들로 미루어 보았을 때, 일본에서 전자펜이 활성화된다면 업무 환경이 개선되지 않을까 생각이 듭니다. 

 

 

 

1) Robotic Process Automation. 사람이 반복적으로 처리해야 하는 단순 업무를 로봇 소프트웨어를 통해 자동화하는 솔루션 (출처: 네이버 지식백과)

2) 제품을 꽂아서 세워둘 수 있는 거치대의 형태로 충전 기능을 가진 제품으로, 일반적으로 충전 기능뿐만 아니라 PC나 TV와 같은 타 기기와 연결해 정보를 주고받는 기능도 있으며 동시에 충전까지 할 수 있음 (출처: 네이버 지식백과)

 

 

 

[ 참고 자료 ]

4차 산업혁명 이야기- 4차 산업 고도화의 ‘촉매’가 되는 OCR

 

[ 이전 글 보기 ]

인사는 ‘셀프’

이수시스템, Japan IT Week 2019에 가다.

한국과 일본, HR 솔루션에서는 어떤 차이가 있을까요?