Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
Multimodal

LayoutLM v1 (2019) 논문 리뷰

by 아르카눔 2025. 4. 16.

 

LayoutLM 모델의 논문 제목은 LayoutLM: Pre-training of Text and Layout for Document Image Understanding이다. (링크)

 

저자는 Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou다.

 

Layout LM 역시 CLIP처럼 문서와 관련된 처리가 산업적 수요가 있다는걸 보고 찾다가 알게된 논문이다.

 

Huggingface의 multimodal models (링크)에서 보면 LayoutLM은 v3까지 나와있다고 한다.

 

이 논문은 LayoutLM v1으로 가장 처음 나온 논문이다.

 

 

Abstract

기존에는 레이아웃이나 문서의 스타일 대신에 텍스트 레벨의 manipulation 조작에 집중했다.

하지만 본 논문에서 소개된 LayoutLM은 텍스트와 레이아웃 정보를 스캔된 문서 이미지를 통해서 동시에 학습한다.

또한 이미지 피쳐를 단어의 시각 정보와 함께 사용한다.

 

 

Figure 1은 다양한 형태의 비즈니스 문서의 스캔된 이미지를 보여준다.

 

2. LayoutLM

 

Figure 2를 보면 LayoutLM의 전반적인 구조를 알 수 있다.

 

OCR / PDF 전처리기를 거친 다음 Position embedding과 Text embedding으로 텍스트 정보를,

 

Fast R-CNN을 거쳐 생성된 이미지 피쳐를 다시 FC layers로 학습하여 Image embeddings를 생성한다. 

 

그 다음 둘을 합쳐서 다운스트림 태스크를 수행한다.

 

 

 

Document Pre-processing

 

Tesseract라는 오픈 소스 OCR 엔진을 이용해서 PDF와 OCR를 처리한다.

이를 통해서 글자의 2-D positions를 인식한다.

OCR 결과는 hOCR 포맷으로 저장했다.

 

Image Embedding

 

OCR을 거쳐서 각 단어에 생성된 bounding box 정보를 이용하여 이를 여러 조각으로 쪼갠다.

이는 각 단어에 일대일 대응한다.

 

각 이미지 조각에 대해서 Faster F-CNN으로 image region 이미지 지역 정보를 추출한 다음 token image embeddings로 사용한다.

 

추가적으로 [CLS] 토큰을 위해서 스캔된 이미지 전체를 ROI로 간주하고 Faster R-CNN을 사용해서 임베딩을 생성한 다음 사용한다.

 

Figure 2의 Image Embeddings 파트의 맨 앞을 보면 작게 문서 전체가 들어가 있는 것을 확인할 수 있다. 

 

Faster R-CNN의 백본 모델로는 ResNet-101을 사용했으며 Visual Genone dataset에 사전 학습된 모델이다.

 

 

 

2-D Position Embedding

 

기존의 NLP 모델과 다르게 문서 안에 있는 단어는 2차원 위치 정보다 필요하다.

여기서는 top-left origin의 좌표 체계를 사용한다.

 

Bounding box는 다음의 4개의 정보를 가진다 (x0,y0,x1,y1)이다.  

(x0,y0)은 bbox의 upper left 좌상단의 좌표다. 

(x1,y1)은 bbox의 lower rightt 우하단의 좌표다. 

 

xy 좌표 각각을 다룬 총 두 개의 embeddings table을 만든 다음 

각각의 4가지 위치에 대한 embeddings를 생성한다.

4가지 위치의 embedding vectors의 dimension은 모두 동일하다.

그리고 4가지 위치 임베딩 벡터와 텍스트의 임베딩 벡터를 모두 합해서 사용한다.

 

 

Pre-trained LayoutLM

 

BERT 구조를 사용한다.

Pre-train을 할 때 Masked Visual-language model로 학습한다.

BERT의 MLM과 유사한데 입력 토큰의 정보는 가리지만 2-D 포지션 임베딩을 그대로 두는 전략을 사용했다.

 

추가적으로 Multi-label Document Classification (MDC) loss를 사용했다.

 

 

Pre-training Dataset

 

IIT-CDIP Test Collection .10

총 6 M이 넘는 문서와 11 M이 넘는 스캔 문서 이미지를 가진 데이터다.

 

 

Fine-tuning Dataset

 

  • FUNSD Dataset - noisy scanned documents
  • SROICE Dataset - receipt information extraction
  • RVL-CDIP - 40 만개의 흑백 이미지 in 16 classes다. 클래스 별로 25,000개의 이미지다. 

 

FUNSD 데이터에 대한 LayoutLM의 결과로 마무리한다.

 

 

 

 

 

References:

https://blog.lomin.ai/layoutlm-pretraining-of-text-and-layout-for-document-image-understanding-33656