Notice

나라지식정보, AI 및 OCR 기술로 파피루스 식별 국제대회 입상

 


ICDAR2023 Competition on Detection and Recognition of Greek Letters on Papyri 


This competition investigates the performance of glyph detection and recognition on a very challenging type of historical document: Greek papyri. The detection and recognition of Greek letters on papyri is a preliminary step for computational analysis of handwriting that can lead to major steps forward in our understanding of this major source of information on Antiquity. It can be done manually by trained papyrologists. It is however a time-consuming task that would need automatising. We provide two different tasks: localization and classification or classification only.The document images are provided by several institutions and are representative of the diversity of book hands on papyri (a millennium time span, various script styles, provenance, states of preservation, means of digitization and resolution).



AI 타임즈 기사 (https://www.aitimes.com/news/articleView.html?idxno=151203)


나라지식정보(대표 손영호)는 부설 인문인공지능 연구소가 온라인으로 지난달부터 진행한 '고전문자 해석 인식 및 식별 인공지능(AI) 경진대회'에 참가, 문자 인식률 39점으로 최종 3위에 올랐다고 19일 밝혔다.

고전문자 해석 인식 및 식별 AI 경진대회는 ICDAR(국제문서분석및인식컨퍼런스) 주최로, 세계 역사 정보 처리 및 분석 연구 발전을 위해 고대문서를 해독, 복원하는 것을 내용으로 하는 행사다.

주관을 맡은 독일 FAU 대학교 패턴 인식 연구소 측은 영국 보들리안 도서관을 포함, 유럽 전역 도서관 및 박물관에 보관 중인 고대 그리스 파피루스 문헌의 이미지를 수집해 제공했다. 이번 주제는 파피루스 위에 흐릿하게 남아 있거나 글자의 단편적 형태만 남은 그리스 문자를 인식, 식별하는 것이다.

나라지식정보는 품질이 좋지 않은 파피루스를 복원하기 위해 배경을 감소하고 윤곽을 두드러지게 하는 등 영상 전처리 방법을 활용했다고 설명했다. 또 문자 인식을 위한 OCR 딥러닝 모델로써 이미지 고해상도를 처리할 때 유리한 HRNet(High-Resolution Network) 모델을 사용했다고 밝혔다.

또 대회에서 사용한 OCR 모델과 데이터 복원 및 증강 기법은 나라지식정보에서 사용 중인 '어노테이션 워크벤치 소프트웨어'에 적용했다고 전했다.

연구소 측은 "개발한 AI OCR 엔진과 소프트웨어를 오는 8월 미국 세너제이에서 열리는 ICDAR-고문헌 워크샵에서 소개할 계획"이라고 밝혔다.

한편 2008년 설립한 나라지식정보는 고품질, 활용성, 표준화, 정확성에 초점을 둔 역사정보화 전문 기업이다. 2019년 부설 연구소를 설립해 디지털화 및 관련 서비스 제공의 경험을 바탕으로 노하우를 쌓았고, 이를 바탕으로 인문학 AI 분야의 새로운 기술 트렌드를 분석, 연구 중이다. 현재는 한적자료 맞춤 AI 데이터 분석 툴을 개발해 사업화를 추진하고 있다.

장세민 기자 semim99@aitimes.com

출처 : AI타임스(https://www.aitimes.com)