Data Science 7

한화 PPT 내용 정리

1. 문제 배경 및 접근 관점- 기존 금융상품 설계의 한계1) 예측 중심의 한계: 과거 데이터 기반의 단일 예측이나 추천은 급변하는 시장 환경과 복잡한 고객 심리를 반영하지 못함.2) 검증 및 설명 부족: 상품 출시 전 '최악의 시나리오'에 대한 정량적 검증이 어렵고, 규제 기관이나 내부 의사결정권자를 설득할 '출시 정당성' 근거가 빈약함. - TRACE-FIN의 접근 관점1) 상품 설계를 시뮬레이션 문제로 정의 : 금융상품 설계를 단순 조건 생성이 아닌, 시간에 따라 변화하는 고객집단(Dynamic Persona)에 대한 안전성과 정당성을 검증하는 Agentic 시뮬레이션 과정으로 재정의2) Closed-loop 프레임워크: 상품생성-시뮬레이션-결과 평과-반사실 검증-설명 및 개선으로 이어지는 통합 인..

Data Science 2026.01.06

빅데이터 자료구조 10-2주차

전위순회의 코드구현1. 전위 순회할 이진 트리 생성2. 루트 노드 print 후 왼쪽 노드로 이동3. 루트의 왼쪽 노드 print후 다시 왼쪽 자식 노드로 이동4. 다시 왼쪽 자식 노드가 있는지 확인. -> None 확인 후 오른쪽 노드 확인 -> None 확인하기5. 리프 노드임을 확인 후 다시 올라가서 오른쪽 서브트리로 이동6. 오른쪽도 마찬가지로 리프 노드까지 왼 / 오 순서로 None확인7. 반복 단순하게.......1. 루트 출력2. 왼쪽으로 이동여기서부터 아래 과정 반복(왼쪽 서브트리 방문)3. 해당 노드 출력4. 왼쪽 노드 확인 후 있으면 출력, 없으면 오른쪽 확인5. 오른쪽 확인 후 있으면 출력, 없으면 위로 올라감6. 올라온 노드는 이미 처리된 노드7. 루트까지 올라가기여기서부터 아..

Data Science 2025.12.09

빅데이터 자료구조 - 10주차

이진트리의 개념: 대표적인 비선형 자료구조로 각 노드가 최대 두 개의 자식을 가지는 트리 구조 이진트리의 요소- Root : 트리의 시작점. 부모가 없음- Leaf : 자식이 없는 트리의 최하단- Internal : 1개 이상의 자식을 가진 노드- Sibling : 같은 부모를 공유하는 노드- Subtree : 어떤 노드를 루트로 하는 트리- Height : 루트에서 가장 리프까지의 깊이- Level : 루트로부터 해당 노드까지의 거리- Degree : 해당 루트가 가진 노드의 개수 트리의 특징- 트리는 하나의 루트 노드를 가진다- 루트 / 리프는 0개 이상의 자식/부모 를 가진다- 노드와 노드는 Edge로 이어져 있다- 트리는 순회구조(Cycle)와 자기순회(Self-Loop)가 존재하지 않음 이진..

Data Science 2025.12.06

트리 기반 앙상블 예측 모델

XGBoost / RandomForest - 둘 다 앙상블 기법이다. (여러 개의 약한 모델(의사결정 트리)를 합쳐서 하나의 강력한 모델을 만드는 방식이다.) 다만 모델들을 합치는 방식에서 차이가 있다. RandomForest : 병렬 방식, 배깅(Bagging) XGBoost : 직렬 방식, 부스팅(Boosting) 1. RandomForest : 데이터를 여러 번 무작위로 뽑아서, 여러 모델을 만든 뒤, 합친다 - 데이터 무작위 샘플링 : 원본 데이터에서 무작위로 데이터를 뽑아 여러 개의 '하위 데이터셋'을 만든다. (중복 허용) - 특성(Feature) 무작위 선택 : 각 '하위 데이터셋'으로 의사결정 트리를 만들 때, 나무 가지를 치는 기준이 되는 특성(변수)도 매번 무작위로 몇 개만 ..

Data Science 2025.12.02

데이터베이스 개론 몇 주차였더라...?

GROUP BY = 데이터의 전체적인 요약을 보기 위한 절. 한 테이블에서 같은 데이터끼리 묶어주는 역할을 한다. 이 GROUP BY는 크게 집계함수와 소계(총계)함수로 나눌 수 있다. 집=계함수(COUNT,SUM): "그룹별로" 요약정보를 계산한다. EX) COUNT(*)를 사용하면 '서울'그룹 50명, '부산' 그룹 30명...과 같은 결과를 보여준다. 그러나 이 GROUP BY의 아쉬운 점은 요약한 정보만 보여주고 총계를 보여주지 않기 때문에 총계를 보기 위해서는 쿼리를 또 실행해야 한다. EX) 아래는 그 예시이다. SELECT 학년, COUNT(*) FROM STUDENT GROUP BY 학년; => 학년별 인원은 나오지만, 학교 전체 총 학생 수는 나오지 않는다. 이를 해결해주는 함수가 R..

Data Science 2025.12.02

Dow Jones Prediction Model - Hybrid Deep Learning

기존에 만들어두었던 앙상블 모델(: 여러 머신러닝 모델의 예측 결과를 조합하여 단일 모델보다 더 나은 성능을 내는 기법)은 정확도가 너무 떨어져서 이를 보완하기 위해 하이브리드 딥러닝 모델 기법을 사용하려 한다. Model Architecture우리가 사용하려는 하이브리드 딥러닝 모델은 CNN + LSTM + Attention으로, 세 가지의 강력한 기법을 모드 결합한 모델이다.1) CNN (for 단기 패턴 포착): 원래는 이미지 처리에 쓰이던 기술이다. 주식 차트에서 '갑자기 튀어 오르는 구간', '하락세로 꺾이는 모양'같은 국소적인 특징(Local Features)을 아주 잘 찾아낸다. 지난 15일치 데이터 중에서 3~5일 간격의 짧은 변동 패턴을 감지한다.2) LSTM (for 장기 흐름 파악)..

Data Science 2025.11.25