Information Retrieval4 Inverted Index Python Implementation - En and Ko 역색인을 파이썬을 이용해서 구현해본다. Elasticsearch를 비롯해서 다양한 상업용 라이브러리가 굉장히 효율적인 알고리즘으로 구현해놓았겠지만, IR을 공부하는 입장에서 직접 구현해볼만한 가치가 있다고 생각해서 간단하게 구현하고 이를 csv와 db 형태로까지 해본다. 영어와 한국어 둘 다 역색인을 파이썬과 sqlite3를 이용해서 db로 간단하게 구현해본다. 영어 역색인 English Inverted Index import re import os import numpy as np import pandas as pd import sqlite3 documents = ["'I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.", .. 2024. 4. 14. Boolean Search, Queries, Index and Inverted Index Boolean Search Boolean Search (불리언 검색)은 검색어가 찾고자 하는 문서에 있다면 1, 없으면 0으로 판단하는 단순한 알고리즘이다. 스탠포드의 CS276 수업에서의 자료인 Figure 1을 예로 들면 다음과 같다. 우선 찾고자 하는 문서(Document)는 연극이며 Term은 여기서는 사람이름이다. 그리고 우리가 찾고자 하는 정보인 query (쿼리, 질의)는 Brutus AND Caesar BUT NOT Calpurnia다. 즉, 연극 중에서 Brutus와 Caesar가 등장하지만 Calpurnia가 등장하지 않는 것을 찾고자 하는게 목적이다. Figure 1에 나온 term-document incidence matrix는 가로 row는 term (용어)이며 세로 column은.. 2024. 4. 14. Information Retrieval and Recommender Systems Information Retrieval (IR)과 Recommender Systems (RS)는 밀접한 관련이 있다. Information Retrieval의 하위 분야에 원하지 않거나 불필요한 정보를 제거하는 information filtering이 있고, recommender systems은 그 infromation filtering의 하위 갈래다. 단순한 계층 구조 외에도 IR와 RS의 가장 중요한 차이점이 있는데 바로 두 시스템의 성격이다. IR IR은 사용자의 능동적인 쿼리를 통한 검색을 통해서 정보를 도출한다. 즉, 사용자의 요구를 먼저 받아 들여야만 그에 대한 결과를 반환한다. IR은 수동적인 패시브 시스템이다. IR은 구글이나 쇼핑몰에서의 검색 결과다. RS 반면에 RS는 사용자의 요구 없.. 2024. 4. 9. Information Retrieval 소개 IR (Information Retrieval) Basics Information retrieval (정보검색)이란 대규모 정보군으로부터 정보 요구를 충족시키는 비구조적인 속성(일반적으로 텍스트)를 지닌 자료(일반적으로 문헌)을 찾아내는 것이다. 과거에는 경영 관리, 연구 개발, 출판물, 특허, 설계도, 시험 데이터 파일 등 기억 매체에 기록된 대량의 데이터 집단에서 자신이 필요로 하는 특정 정보를 선택하여 신속하게 찾는 형태이었으나, 웹이 활성화되면서 원격지나 분산되어 있는 자료까지 통합하여 검색하는 웹 정보검색 서비스로 발전되고 있다. 데이터는 여러 타입으로 분류할 수 있는데, Structured Data (구조적 자료), Semi-Structured Data (반구조적 자료) , Unstructur.. 2024. 4. 9. 이전 1 다음