본문 바로가기

Search2

Inverted Index Python Implementation - En and Ko 역색인을 파이썬을 이용해서 구현해본다. Elasticsearch를 비롯해서 다양한 상업용 라이브러리가 굉장히 효율적인 알고리즘으로 구현해놓았겠지만, IR을 공부하는 입장에서 직접 구현해볼만한 가치가 있다고 생각해서 간단하게 구현하고 이를 csv와 db 형태로까지 해본다. 영어와 한국어 둘 다 역색인을 파이썬과 sqlite3를 이용해서 db로 간단하게 구현해본다. 영어 역색인 English Inverted Index import re import os import numpy as np import pandas as pd import sqlite3 documents = ["'I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.", .. 2024. 4. 14.
Boolean Search, Queries, Index and Inverted Index Boolean Search Boolean Search (불리언 검색)은 검색어가 찾고자 하는 문서에 있다면 1, 없으면 0으로 판단하는 단순한 알고리즘이다. 스탠포드의 CS276 수업에서의 자료인 Figure 1을 예로 들면 다음과 같다. 우선 찾고자 하는 문서(Document)는 연극이며 Term은 여기서는 사람이름이다. 그리고 우리가 찾고자 하는 정보인 query (쿼리, 질의)는 Brutus AND Caesar BUT NOT Calpurnia다. 즉, 연극 중에서 Brutus와 Caesar가 등장하지만 Calpurnia가 등장하지 않는 것을 찾고자 하는게 목적이다. Figure 1에 나온 term-document incidence matrix는 가로 row는 term (용어)이며 세로 column은.. 2024. 4. 14.