한국 주식 API로 자동투자(알고리즘 트레이딩) 시작하기

알고리즘 트레이딩 시스템의 성패는 API 연동의 깊이와 안정성에 달려있습니다. 2025년 한국 시장, 특히 넥스트레이드(NXT)의 등장은 기존의 단순한 API 연동을 넘어선 다중 시장(Multi-Venue) 아키텍처를 요구합니다.

본 글은 실제 프로덕션 레벨의 시스템을 구축하려는 개발자와 퀀트 트레이더를 대상으로 기술 스택, 아키텍처, 핵심 라이브러리 및 문제 해결에 도움이 되도록 작성되었습니다.

1. 2025년 핵심 패러다임: NXT와 SOR(최선집행) 아키텍처

NXT의 등장은 단순한 ‘거래시간 연장’이 아닙니다. 이는 시스템 아키텍처의 근본적인 재설계를 의미합니다.

1-1. SOR (Smart Order Routing) 로직의 구현

‘최선집행’은 이제 선택이 아닌 의무입니다. 시스템은 KRX와 NXT의 실시간 호가(Level 2 데이터)를 동시에 수신받아, 다음 요소를 복합적으로 고려하는 라우팅 엔진을 구현해야 합니다.

가격(Price): 가장 유리한 매수/매도 호가
유동성(Size): 해당 호가에 쌓인 물량
수수료(Fee): 거래소별(NXT가 저렴) 및 증권사별 수수료
레이턴시(Latency): 체결 속도 (일반적으로 무시되나 HFT 영역에서는 중요)

기술적 난제: 두 마켓의 WebSocket 스트림을 동기화하고, 단일 종목에 대한 통합 호가창(Consolidated Order Book)을 메모리 내(in-memory)에 구축해야 합니다.

1-2. 다중 시장 상태 관리 (State Management)

‘15% 룰’과 같은 규제는 특정 종목이 특정 시장(NXT)에서 일시적으로 거래 불가능해지는 상태를 만듭니다.

설계: 종목 마스터 데이터베이스(예: PostgreSQL, MySQL)에 기존 market, code 필드 외에 JSONB 또는 별도 테이블을 사용한 tradable_venues 상태 관리가 필수입니다.
Python (Data Class 예시):

from dataclasses import dataclass, field
from typing import Dict, List
import datetime

@dataclass
class VenueStatus:
    tradable: bool = True
    reason: str | None = None
    until: datetime.date | None = None

@dataclass
class StockMaster:
    code: str  # 예: "005930"
    name: str
    venues: Dict[str, VenueStatus] = field(default_factory=dict)

# 9월 '15% 룰' 적용 예시
samsung_status = {
    "KRX": VenueStatus(tradable=True),
    "NXT": VenueStatus(tradable=False, reason="15%_rule", until="2025-09-30")
}
samsung = StockMaster(code="005930", name="삼성전자", venues=samsung_status)

운영: 이 상태는 매일 장 시작 전(Pre-market) 배치(batch) 작업을 통해 증권사 공지나 데이터 제공처(예: 코스콤)로부터 업데이트되어야 합니다.

2. 주력 API 심층 분석: 기술 스택 및 구현 전략

API 선택은 전체 시스템의 아키텍처를 결정합니다.

🥇 1순위: 한국투자증권 (KIS Developers) – 비동기 아키텍처

현대적 서버사이드 퀀트 시스템의 표준입니다.

기술 스택: Python (3.10+), asyncio, aiohttp (REST), websockets (실시간 시세)
핵심 난제: 레이트리밋 (Rate Limit) 관리
- KIS는 초당/분당 호출 제한이 엄격합니다. time.sleep()을 사용하는 순진한 접근은 비동기 환경의 이점을 모두 파괴합니다.
- 해결: 비동기 토큰 버킷(Async Token Bucket) 알고리즘을 구현해야 합니다.
Python (Async Rate Limiter 예시):

import asyncio
import time

class AsyncTokenBucketLimiter:
    def __init__(self, calls_per_sec: int, max_tokens: int):
        self.calls_per_sec = calls_per_sec
        self.max_tokens = max_tokens
        self._tokens = max_tokens
        self._last_update = time.monotonic()
        self._lock = asyncio.Lock()

    async def _add_tokens(self):
        now = time.monotonic()
        elapsed = now - self._last_update
        new_tokens = elapsed * self.calls_per_sec

        if new_tokens > 1:
            self._tokens = min(self.max_tokens, self._tokens + new_tokens)
            self._last_update = now

    async def allow_request(self):
        async with self._lock:
            await self._add_tokens()

            if self._tokens >= 1:
                self._tokens -= 1
                return True

            await self._wait_for_token()
            self._tokens -= 1
            return True

    async def _wait_for_token(self):
        # 토큰이 1개 생성될 때까지 필요한 시간 계산
        time_to_wait = (1 - self._tokens) / self.calls_per_sec
        await asyncio.sleep(time_to_wait)

WebSocket 관리: websockets 라이브러리를 사용한 자동 재연결(Auto-reconnect) 및 Ping/Pong 처리 로직은 기본입니다. 모든 수신 데이터는 Kafka 또는 Redis Pub/Sub 같은 메시지 큐(MQ)로 즉시 전달하여, 수신부와 처리부(전략 엔진)를 분리(Decoupling)해야 합니다.

🥈 2순위: 키움증권 (OpenAPI+ / REST API)

신규 REST API: KIS와 유사한 현대적 접근이 가능해졌습니다. 단, API 생태계와 서드파티 라이브러리는 KIS 대비 아직 성숙 중입니다.
전통 OpenAPI+ (COM): 여전히 강력한 커뮤니티와 방대한 자료가 강점입니다.
- 기술 스택: Windows (필수), Python (32-bit 필수), pywin32 또는 python-comtypes (COM Interop)
- 핵심 난제: Windows 이벤트 루프와 32-bit 환경
  1. 32비트 격리: Conda 가상환경을 통해 “python38-32” 같은 32비트 전용 환경을 구축하여 시스템의 다른 64비트 패키지(예: TensorFlow)와 격리해야 합니다.
  2. 이벤트 루프 브릿지: OpenAPI+는 QAxWidget 기반의 PyQt 이벤트 루프( QApplication.exec_()) 내에서 동작합니다. 이는 asyncio나 표준 스레드와 충돌합니다.
  - 해결: 키움 API 연동 전용 단일 프로세스를 생성하고, multiprocessing.Queue 또는 **ZeroMQ**를 사용해 메인 로직(64비트, 리눅스/윈도우 무관)과 통신(IPC)하는 ‘브릿지 패턴’이 가장 안정적입니다.
- Python (Kiwoom 브릿지 프로세스 의사코드):

# kiwoom_bridge_process.py (32-bit Python)
import sys
from PyQt5.QtWidgets import QApplication
from kiwoom.api import KiwoomAPI
import multiprocessing

def run_kiwoom_loop(queue_in, queue_out):
    app = QApplication(sys.argv)
    api = KiwoomAPI() # QAxWidget 기반 로그인 및 이벤트 처리

    # TODO: queue_in으로 명령 수신 (예: 'get_account_info')
    # TODO: api 콜백에서 받은 데이터를 queue_out으로 전송

    app.exec_()

if __name__ == "__main__":
    # 이 프로세스는 32비트 파이썬으로 실행
    pass

🥉 기타 API (LS증권, 대신증권)

LS증권: C++ 기반 API를 제공하며 pyeBest 등 래퍼(wrapper)가 존재합니다. 크로스 플랫폼을 지원하는 것이 장점입니다.
대신증권 (CYBOS Plus): 키움과 유사한 COM 기반 API입니다. 역시 32비트 윈도우 환경이 필요하며, 풍부한 TR(데이터 규격)을 제공합니다.

3. 보조 데이터 파이프라인: 수집, 처리, 저장

실시간 시세만으로는 정교한 전략을 만들 수 없습니다.

3-1. DART (공시정보)

수집: dart-fss 같은 서드파티 라이브러리를 사용하거나, requests로 공식 OpenAPI를 직접 호출합니다.
파이프라인: APScheduler 또는 cron 을 이용해 5~10분 간격으로 폴링(Polling) 합니다.
처리: 수신된 공시(XML/JSON)를 파싱하여, ‘유상증자’, ‘CB발행’, ‘영업실적’ 등 핵심 키워드를 추출합니다.
활용: 추출된 이벤트는 Redis Pub/Sub이나 Kafka 토픽으로 발행(Publish)하여, ‘이벤트 기반 전략(Event-driven Strategy)’ 모듈이 즉시 반응하도록 합니다.

3-2. 뉴스 및 텍스트 데이터 (NLP)

수집:
- 네이버 API (공식): requests를 사용. 검색 쿼터(quota) 제한이 있습니다.
- 비공식 크롤링: Scrapy (대규모) 또는 BeautifulSoup4 + aiohttp (소규모)를 사용합니다. (4-1 항목의 리스크 참조)
처리 (NLP 파이프라인):
1. 전처리: KoNLPy (Okt, Mecab)를 이용한 형태소 분석 및 불용어 제거.
2. 감성 분석: 사전 기반(KNU Senti) 또는 딥러닝 모델(kc-electra, kobert 등 Hugging Face Transformers)을 파인튜닝하여 뉴스 헤드라인/본문의 긍/부정을 판별합니다.
3. 특징 추출: TF-IDF 또는 Word2Vec을 이용해 특정 종목과 자주 연관되는 키워드(테마)를 추출합니다.

4. ⚠️ 전문가를 위한 함정 및 극복 방안

함정 1: 포털 크롤링 의존성
- 리스크: 네이버/다음 금융의 HTML 구조는 예고 없이 변경되며, 과도한 요청은 IP 차단(403 Forbidden)을 유발합니다.
- 극복 (만약 해야 한다면): Scrapy 프레임워크를 사용해 User-Agent 로테이션, robots.txt 준수, Auto-throttling (자동 속도 조절), 프록시 서버(rotating-proxies) 사용 등 전문 크롤러의 에티켓과 기술을 총동원해야 합니다.
함정 2: TradingView 데이터 피드 오해
- 본질: TradingView는 차트 UI 라이브러리입니다. 데이터는 개발자가 직접 제공해야 합니다.
- 구현: FastAPI 또는 **Flask**로 백엔드 서버를 구축해야 합니다. 이 서버는 1) 증권사 API(예: KIS)로부터 데이터를 수신받아 2) TimescaleDB 같은 시계열 DB에 저장하고 3) TradingView가 요구하는 UDF (Universal Data Format) 또는 WebSocket Datafeed API 규격에 맞춰 데이터를 가공하여 서빙해야 합니다.
함정 3: 부정확한 백테스팅
- 리스크: yfinance 등에서 받은 수정주가로 백테스트하면 ‘생존 편향’과 ‘미래 데이터’ 오류가 발생합니다.
- 극복:
  1. 데이터: 원본(Raw) 일봉/틱 데이터를 수집하고, 무상증자/배당/액면분할 이벤트를 별도로 저장하여 백테스터가 **시뮬레이션 시점(Point-in-Time)**에 맞게 주가와 수량을 보정해야 합니다.
  2. NXT 시뮬레이션: 2025년 3월 이전 데이터는 KRX 단독, 이후 데이터는 SOR 로직(수수료, 체결 우선순위)을 시뮬레이션하는 커스텀 백테스터 (backtrader나 zipline의 핵심 로직 수정)가 필요합니다.

5. 실전 아키텍처: 통합 및 안정성

프로덕션 시스템은 각 모듈의 유기적인 결합이 핵심입니다.

이벤트 버스 (Event Bus): 모든 데이터(시세, 체결, 공시, 뉴스)는 Apache Kafka 또는 RabbitMQ (NATS도 좋은 대안)를 통해 중앙에서 비동기적으로 처리됩니다.
- 예: topic.kis.tick.005930, topic.dart.alert.LGELEC, topic.nlp.sentiment.SKHYNIX
데이터 저장소 (Storage Layer):
- Time-Series DB (시계열): TimescaleDB (PostgreSQL 확장) 또는 InfluxDB. 모든 틱/분봉 데이터 저장.
- In-Memory DB (상태/캐시): Redis. 현재 포지션, 통합 호가창, 레이트리밋 토큰 등 실시간 상태 관리.
- Relational DB (메타데이터): PostgreSQL. 종목 마스터, 공시 원본, 전략 파라미터, 백테스트 결과 저장.
운영 (DevOps):
- 컨테이너화: Docker 및 **docker-compose.yml**을 사용해 전체 스택(데이터 수집기, 전략 엔진, Redis, DB)을 코드로서 관리하고 일관된 배포를 보장합니다.
- 모니터링: Prometheus로 API 지연 시간, PnL, 레이트리밋 버퍼 등 핵심 지표를 수집하고, Grafana로 대시보드를 구축하여 시스템 상태를 실시간 모니터링합니다.
- CI/CD: GitHub Actions 또는 GitLab CI를 통해 코드 푸시 시 자동으로 회귀 테스트(특히 TR 변경 대응)를 실행하고 배포하는 파이프라인을 구축합니다.

6. 최종 기술 체크리스트 (Deep Dive)

[ ] 데이터 무결성: 장 종료 후 데이터 검증(Validation) 스크립트(누락된 캔들, 튄 틱 데이터 검사)를 실행하여 데이터베이스의 품질을 보장하는가?

[ ] 동시성 모델: I/O 바운드(API 통신, WS 수신) 작업은 **asyncio**로, CPU 바운드(백테스팅, NLP 분석) 작업은 **multiprocessing**으로 분리했는가?

[ ] API 키 관리: API 키와 시크릿을 코드에 하드코딩하지 않고, python-dotenv (개발) 또는 HashiCorp Vault / AWS Secrets Manager (운영)를 통해 안전하게 주입하는가?

[ ] 장애 복구: WebSocket 연결이 끊겼을 때 (네트워크 문제, 증권사 점검) 지수 백오프(Exponential Backoff) 알고리즘을 사용한 자동 재연결 로직이 구현되어 있는가?