도서 컨텍스트 추출 및 정제
"신뢰할 만한 결과는 신뢰할 만한 데이터에서 옵니다."
많은 기업이 AI 도입의 POC(개념 증명) 단계에서 머무는데 그치고 있습니다.
AI 도입의 성공에 있어 필수 조건은 출처 적합성이 받침된 신뢰할만한 고품질 데이터인 것을 주요 IT 계열사에서도 말하고 있습니다.
고수준의 학문 서적, 논문 등 다양한 책과 스크립트는 고품질 데이터의 원천(Source)으로서 인정될만합니다.
자료 추출 및 참조 문장 상호연결
소프트웨어적 처리로 도서 내 노이즈 데이터를 정확도 높게 선별하여 제거해 나가는 것으로 학습 데이터 혹은 데이터셋Dataset에 필요한 네러티브 텍스트를 완성합니다.
도서 내에 있는 그림(Image), 그래프 및 도식(Graph), 일반 표(Table)등 고차원 데이터에 대해서 정밀 추출 및 변환합니다.
또한 문맥 문장 내에 각주Footnote 및 참조 문헌Reference 등 상호 연결 문장에 대해 Meta 정보를 가공 변환합니다.
다이아몬드 가공과 흡사한 텍스트 정제
다이아몬드를 흙에서 소량 채취하여 가치 높은 생산물을 가공해내듯이,
많은 데이터가 가득한 정보 시대에서, 가치(Value) 있는 정보와 지식을 활용하여 고차원의 가치 창출을 하고 싶은 고객에게 유리한 솔루션입니다.
다시 말해, 많은 불필요한 데이터(Garbage)를 가려내어 Expensive (Text) Data 추출과 텍스트 전처리(Text Pre-Processing)를 해결해드리는 서비스입니다.
어떻게 사용됩니까?
접목 가능한 분야로는 대표적으로
-
AI 인공지능 학습 데이터 세트(Data Set) 구성
-
빅데이터 수집 및 데이터 베이스 구축
-
수학/과학적 모델링 개발 연구
-
머신러닝
-
교육 및 학습
-
여러 분야의 기술/문학 등 다양한 트렌드 분석 및 연구 개발 등이 있습니다.
Book Dataset Solution이 가능한 텍스트 유형/데이터 포맷은 아래와 같습니다.
- 데이터 포맷 형태:
1) 전자책(PDF)
2) 비표준 전자책(EPUB)
3) 실물 도서(오프라인)
4) 이외 분석 가능한 Script 문서.