동향

인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 [기술이전설명회 발표자료]

분야

정보/통신

발행기관

정보통신기획평가원

발행일

2022-11-24

URL


- 본 이전기술은 한문 고서의 원문 이미지 데이터로부터 텍스트로 옮기는 광학문자인식(OCR: Optical Character Recognition) 기술임
- 한문 고서의 한자들의 위치 정보를 제공하는 인공지능 검출 모델 및 검출된 한자 이미지들을 기계가 읽을 수 있는 텍스트로 변환하는 인공지능 한자 인식 모델, 한문 고서의 한자들의 서순을 정렬하는 기술임
- 서순 정렬 기술은 소·중·대분류 3종의 계층적 라인분할을 통해 본주와 세주를 분류하고 우종서 기반의 서순으로 한자를 정렬하여 디지털 텍스트를 추출하는 기술임
- 한자 검출 및 인식 모델은 AIHUB의 공개 데이터와 자체적으로 구축한 데이터를 사용하여 학습되었으며, 2,000자 이상 인식이 가능함

리포트 평점  
해당 콘텐츠에 대한 회원님의 소중한 평가를 부탁드립니다.
0.0 (0개의 평가)
평가하기
등록된 댓글이 없습니다.