FinGPT는 금융을 목적으로한 LLM으로 논문 제목은 FinGPT: Open-Source Financial Large Language Models다. (링크)
저자는 Hongyang Yang, Xiao-Yang Liu, Christina Dan Wang다.
BloombergGPT와는 다르게 오픈소스 Financial LLM이다.
Main Github: 링크
Data Github: 링크
Benchmark Github: 링크
RAG Github: 링크
Introduction
FinGPT에는 다음의 컨트리뷰션이 있다.
1. Democritization:
FinGPT는 오픈 소스 프레임워크이며 financial data와 FinLLM을 모두 공적으로 공개했다.
2. Data-centric approach:
데이터 큐레이션의 중요성을 인식하고 있기 때문에 data-centric 접근방법을 택했다.
따라서 엄격하게 데이터를 정제하고 전처리를 수행하여 고품질의 데이터를 만들고자 했다.
3. End-to-end 프레임워크:
FinGPT는 full-stack 프레임워크로 아래의 4층의 레이어로 구성된다.
Data source layer:
금융 데이터의 특성상 high temporal sensitivity 시간의 흐름에 민감한데 이 레이어를 통해서 포괄적인 마켓 커비리지를 갖는다.
Data engineering layer:
실시간 NLP 데이터 프로세싱이 목적이다. 높은 시간적 민감도와 낮은 signal-to-noise ratio 신호 대비 노이즈 비율을 완화한다.
LLMs layer:
여러가지 Fine-tuning을 포함한다.
Application layer:
실전적인 응용과 데모를 보여준다.
3. Data-Centric Approach for FinLLMs
3.1 Financial Data and Unique Characteristics 금융데이터의 고유 특징
Financial News, Company Fillings, Social Media Discussions, and Company Announcements 금융 뉴스, 기업의 서류, 소셜 미디어 토론, 기업 공시 데이터는 다음의 특징을 지닌다.
Financial news 금융 뉴스
• Timeliness: 최신 뉴스를 포함한다.
• Dynamism: 역동적이며 경제 상황과 시장 상황에 따라서 빠르게 변한다.
• Influence: Financial 금융 뉴스는 시장의 트레이더들의 의사 결정에 영향을 미치며 결과적으로 시장에 영향을 미친다.
Company filings and announcements 기업 서류와 기업 공시
• Granularity: These documents offer granular information about a company’s financial status, including assets, liabilities, revenue, and profitability. 자산, 부채, 수익, 수익성 등 기업의 재무 상태에 대한 세부적인 정보를 제공한다.
• Reliability: 규제 기관의 검증을 거친 신뢰할 수 있고 검증된 데이터가 포함되어 있다.
• Periodicity: 기업의 재무적 사항에 대해서 정기적으로 보고된다.
• Impactfulness: 주가와 투자자의 심리에 강한 영향을 미친다.
Social media discussions
specific stocks, sectors, or the overall market 특정 주식, 섹터 그리고 전체 시장에 대한 투자자들의 심리를 반영한다.
• Variability: 어조, 내용, 질에 있어서 다양하고 풍부하고 복잡한 정보를 제공한다.
• Real time sentiment: 대중들의 시장에 대한 심리를 실시간으로 파악할 수 있다. 이를 통해 여론의 추세를 알 수 있다.
• Volatility: 뉴스나 시장의 변화에 따른 변동성이 매우 크다.
Trends
Seeking Alpha, Google Trends, and other finance-oriented blogs and forums 등에서 볼 수 있는 추세는 투자 전략에 대한 중요한 인사이트를 제공한다.
• Analyst perspectives: 금융 분석가와 전문가의 의견을 통해서 시장에 대한 예측과 조언을 얻을 수 있다.
• Market sentiment: 시장에 대한 집단적인 심리를 반영한다.
• Broad coverage: 다양한 주식 혹은 시장 분야에 대한 데이터를 포함한다.
3.2 Challenges in Handling Financial Data 금융 데이터 처리에서의 난점
• High temporal sensitivity: 금융 데이터는 시간의 흐름에 매우 민감하다. 높은 시간적 민감도.
• High dynamism: 시장의 상황이나 뉴스 등에 따라서 끊임 없이 변하는 높은 역동성을 지닌다.
• Low signal-to-noise ratio (SNR): 금융 데이터는 낮은 signal-to-noise ratio 신호 대비 노이즈 비율을 지닌다. 이는 대부분의 중요한 데이터 signal이 대부분 노이즈 noise에 가려짐을 의미한다.
4. Overview of FinGPT: An Open-Source Framework for FinLLMs
4.1 Data Sources
• Financial news: Websites such as Reuters, CNBC, Yahoo Finance
• Social media: Platforms such as Twitter, Facebook, Reddit, Weibo, and others
• Filings: 미국의 경우 SEC, 그리고 Official websites of stock exchanges (NYSE, NASDAQ, Shanghai Stock Exchange.
• Trends: Seeking Alpha, Google Trends, and other finance-focused blogs and forums
• Academic datasets: Research based datasets that offer curated and verified information for sophisticated financial analysis.
Data APIs: In the FinGPT framework, APIs는 초기 데이터 수집 뿐만 아니라 실시간 데이터 수집에도 사용한다.
4.2 Real-Time Data Engineering Pipeline for Financial NLP
다음의 내역을 포함한다.
- Data Cleaning
- Tokenization
- Stemming and Lemmatization
- Feature Extraction
- Prompt Engineering
4.3 Large Language Models (LLMs)
- LLM APIs
- Trainable models
- Fine-tuning methods
- LoRA (Low-rank Adaptation)
- RLSP (Reinforcement Learning on Stock Prices)
RLSP는 RLHF를 대체하는 방법론이다.
주가를 사용하는 이유는 주가가 뉴스와 사건에 대한 시장 심리를 반영하는 정량화 가능하고 객관적인 지표를 제공하기 때문이다.
이러한 접근 방식을 통해 FinGPT는 재무 텍스트에 대한 이해와 해석을 개선하여 다양한 금융 사건에 대한 시장 반응을 예측하는 능력을 향상시킬 수 있다.
4.4 Applications
- Robo-advisor
- Quantitative trading
- Portfolio optimization
- Financial sentiment analysis
- Risk management
- Financial Fraud detection
- Credit scoring
- Involvency prediction
- Merges and acquisitions (M&A) forecasting
- ESG (Environmental, Social, Govrenance) scoring
- Low-code development
- Financial education
LoRA는 일반적인 방법이라 당연히 생각할 수 있다고 보는데,
RLHF 대신 RLSP로 대체하는 부분이 흥미로웠던 논문이다.
추가적으로 이를 오픈소스로 공개했다는 점도 대단하다고 생각한다.
'Time Series > Finance' 카테고리의 다른 글
BloombergGPT (2023) 논문 리뷰 (0) | 2025.05.02 |
---|---|
SEC Fillings를 읽기 위한 회계용어 몇가지 정리 (1) | 2025.05.02 |
SEC 미국 공시 관련 정보 모음 (0) | 2025.05.02 |
Modern Portfolio Theory Basics (0) | 2025.04.28 |
Finance and Investment Introduction (2) | 2025.04.24 |