본문 바로가기

분류 전체보기55

ResNet (2016) 논문 리뷰 ResNet이 소개된 논문 이름은 Deep Residual Learning for Image Recognition이라는 심플한 이름이다. 저자는 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun이다.  ResNet은 residual connection이 핵심인 모델이며 ILSVRC 2015 image classification에서 1등을 한 모델이다.   AbstractResidual functions을 도입해서 layers input에 reference로 작용하도록 구성했다. 충분히 이해할만한 실증적인 증거들을 보여준다. 약 152 layers를 가지고 있으며, 이는 VGGNet보다 8배 더 깊은 구조를 지니지만 complexity는 더 낮다. ILSVRC.. 2024. 4. 15.
Fast R-CNN (2015) 논문 리뷰 Fast R-CNN의 논문 이름은 모델 이름과 똑같은 Fast R-CNN이다. 저자는 Ross Girshick다. Fast R-CNN은 이름에서 짐작할 수 있듯이 기본적으로 R-CNN의 느린 속도를 보완하기 위한 모델이다. Abstract 이 논문은 object detection을 위한 Fast Region-based Convolutional Network (Fast R-CNN)이다. 기존의 deep convolutional network에 기반한 효율적인 object proposals 분류(classify)를 활용하여 몇가지 혁신을 적용했다. 그 혁신은 트레이닝과 테스트 속도를 높이면서 동시에 detection accuracy도 향상시켰다. Fast R-CNN은 VGG16 network에 기반했으며 트.. 2024. 4. 14.
Inverted Index Python Implementation - En and Ko 역색인을 파이썬을 이용해서 구현해본다. Elasticsearch를 비롯해서 다양한 상업용 라이브러리가 굉장히 효율적인 알고리즘으로 구현해놓았겠지만, IR을 공부하는 입장에서 직접 구현해볼만한 가치가 있다고 생각해서 간단하게 구현하고 이를 csv와 db 형태로까지 해본다. 영어와 한국어 둘 다 역색인을 파이썬과 sqlite3를 이용해서 db로 간단하게 구현해본다. 영어 역색인 English Inverted Index import re import os import numpy as np import pandas as pd import sqlite3 documents = ["'I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.", .. 2024. 4. 14.
Boolean Search, Queries, Index and Inverted Index Boolean Search Boolean Search (불리언 검색)은 검색어가 찾고자 하는 문서에 있다면 1, 없으면 0으로 판단하는 단순한 알고리즘이다. 스탠포드의 CS276 수업에서의 자료인 Figure 1을 예로 들면 다음과 같다. 우선 찾고자 하는 문서(Document)는 연극이며 Term은 여기서는 사람이름이다. 그리고 우리가 찾고자 하는 정보인 query (쿼리, 질의)는 Brutus AND Caesar BUT NOT Calpurnia다. 즉, 연극 중에서 Brutus와 Caesar가 등장하지만 Calpurnia가 등장하지 않는 것을 찾고자 하는게 목적이다. Figure 1에 나온 term-document incidence matrix는 가로 row는 term (용어)이며 세로 column은.. 2024. 4. 14.
Show and Tell = Neural Image Caption (NIC) (2014) 모델 간단 리뷰 Neural Image Caption (NIC)는 2014년에 나온 논문으로 풀 네임은 Show and Tell: A Neural Image Caption Generator다. 이름에서 알 수 있듯이 이미지를 받으면 DNN (Deep Neural Network)를 통해서 캡션, 이미지에 대한 설명을 작성하게 된다. 저자는 Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan이다. 해당 논문은 구조 상으로 큰 개선은 없었으나 Vision CNN과 NLP LSTM을 함께 사용하여, 이미지 캡셔닝을 사용한 비교적 오래된 2014년 논문이라 점에서 간단하게 짚고 넘어가고 싶어서 포스팅한다. 모델 설명 Figure 1은 Show and Tell 논문에서 제시한.. 2024. 4. 13.
SPPNet(2014) PyTorch Implementation SPPNet을 Pytorch를 활용하여 구현하고자 한다. https://arsetstudium.tistory.com/35에서 공부한 내용을 토대로 구현보면 아래와 같다. SPPNet은 R-CNN처럼 Spatial Pyramid Pooling을 제외하고 CNN 구조 자체는 기존과 동일하므로 이는 생략한다. SPP는 max pool 또는 average pool이며 중요한 사항은 바로 window와 stride의 사이즈다. 개별 SPP를 우선 구현한다. import torch import torch.nn as nn import math class PyramidPoolCell(nn.Module): # a is the size of feature map # n is the bin size of pyramid po.. 2024. 4. 12.