1. 프로젝트 개요

1.1 프로젝트가 해결하는 문제

<aside> 🎯 특정 키워드로 검색했을 때, 내 블로그가 네이버에서 몇 위에 노출될까?

</aside>

네이버 블로그 검색 결과에서 블로그의 예상 순위를 AI로 예측하는 시스템입니다. 50만 건 이상의 실제 관측 데이터를 기반으로, 단순한 감이 아닌 데이터 기반의 순위 예측을 제공합니다.

대상 사용자:

1.2 핵심 기능 요약

기능 설명
순위 예측 키워드 + 블로그 조합으로 네이버 검색 예상 순위 및 Top-K 확률 계산
블로그 권위도 블로거별 전문성 점수 산출 (블로그 간 상대 비교)
키워드 난이도 키워드별 경쟁도 11단계 등급 (SSS ~ D)
등급 시스템 블로거를 6개 등급으로 분류 (Purple ~ White)
모니터링 예측 적중률, 등급 분포, 승급/강등 추적 대시보드
LLM 연동 GPT-4o-mini 키워드 추천 + Claude 블로그 피드백

1.3 프로젝트 규모

현재 운영 중인 시스템의 데이터 규모와 향후 확장 계획입니다.

구분 현재 (Current) 목표 (Target)
추적 키워드 수 3만 개 50만 개
일일 수집 레코드 90만 건 1,500만 건
블로그 데이터 확보 26만 블로그 200만 블로그

<aside> 🚀 키워드 약 17배, 일일 레코드 약 17배, 블로그 약 8배 규모의 확장이 계획되어 있습니다.

</aside>

2. 기술 스택

2.1 전체 기술 구성

레이어 기술
백엔드 프레임워크 Python 3.9, FastAPI, Uvicorn
메인 DB MySQL (랭킹 DB + 프로덕션 DB 분리)
임베디드 DB SQLite (모델 매칭 데이터, 예측 결과 저장)
머신러닝 LightGBM, scikit-learn, NumPy, Pandas
스케줄링 APScheduler (AsyncIO 기반 크론 작업)
LLM OpenAI GPT-4o-mini, Anthropic Claude
한국어 NLP kiwipiepy (형태소 분석)
시각화 SHAP, matplotlib, seaborn
비동기 HTTP httpx (네이버 크롤링용)
배포 Docker, GitHub Actions CI/CD
알림 Slack Webhook

3. 시스템 아키텍처

3.1 전체 아키텍처 다이어그램