<aside> 💡 본 메뉴얼은 2022년 NIA 데이터 구축사업으로 만들어진 데이터의 유효성을 검증하기 위한 메뉴얼입니다. 구축된 데이터로 실제 인공지능 모델을 훈련시켰을때 목표했던 수준을 달성하는지를 확인합니다.

</aside>

README

유효성 검사는 도커의 이미지(.tar)를 로드하여 재현가능합니다.
도커 이미지 안 소스파일에는 바로 검증이 가능한 test dataset 포함되어있습니다.
CPU 사용 기준으로 만들어진 도커 이미지입니다.
- 필요시 GPU를 사용해서 검증하면 약 3~4배의 시간은 단축 할 수 있습니다.
Text인식 모델은 EasyOCR의 deep-text-recognition-benchmark 모델을 사용하여 학습하였습니다.
메뉴 단위로 이미지를 자른 뒤 text를 인식하고, CER를 계산합니다. (목표 기준: CER 20% 이하)
본 메뉴얼은 검증PC에 도커가 설치되어있다는 가정으 로 설명합니다. Docker가 아직 설치되어있지 않으면 아래 링크로 다운로드 후 실행해주세요.
- MacOS: https://docs.docker.com/desktop/mac/install/
- Windows: https://docs.docker.com/desktop/windows/install/
- Linux(Ubuntu): https://docs.docker.com/engine/install/ubuntu/

환경 사양

검증PC 시스템 환경

모델 학습 환경

| CPU | Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz | | --- | --- | | Memory | 31 GB RAM | | GPU | GeForce GTX 1080 Ti * 2 | | Storage | 468GB | | OS | Ubuntu 18.04.6 LTS |

CPU	AMD EPYC Processor (with IBPB)
Memory	885GB
GPU	NVIDIA A100-SXM4-40GB * 4
Storage	197GB
OS	Ubuntu 18.04.5 LTS

인공지능 모델 (알고리즘)

개발언어	Python
프레임워크	PyTorch
도커 이미지 용량	3.37GB
실행 파일명	ko-menu-text-recognition.tar
알고리즘	deep-text-recognition-benchmark (TPS+VGG+BiLSTM+Attn)

학습 조건

검증/평가 방법	Test dataset에 대한 CER 평균 계산

데이터셋 구성

2-084-222 관광 음식 메뉴판 데이터

어노테이션 유형	관광 음식 메뉴판 데이터
종류 및 수량	✅ Training Set: 80% (80,190개 이미지의 메뉴명 데이터)
✅ Validation Set: 10% (10,000개 이미지의 메뉴명 데이터)
✅ Test Set: 10% (10,000개 이미지의 메뉴명 데이터)

총 100,190 메뉴판 이미지 | | 형식 | 메뉴명 데이터(.json) + 메뉴판 이미지(.jpg) |