반응형

금융 머신러닝 개요 6

머신러닝 개요, 결정트리와 랜덤포레스트

1. 결정 트리 결정 트리는 주어진 문제에 관해 결정을 내리는 함수를 트리 형태로 구성한 것이다. 이 방법은 결과에 대한 뛰어난 설명력을 제공하고 있는 것으로 알려져 있고, CART(Classification and Regression Trees)라고도 불리운다.분류 트리분석 : 예측된 결과로 입력 데이터가 분류되는 클래스 출력회귀 트리분석: 예측된 결과로 특정 의미를 지니는 실수 값 출력루트 노드와 내부 노드는 결정 요인(속성)에 해당하며, 결정 요인의 값에 따라 가지의 개수가 결정되고, 리프 노드는 최종 결과에 대응된다. 이 기업의 학습 과정은 루트 노드에서 시작하여 각 노드에 적절한 속성을 선택하고 그 속성값에 따라 기준을 정하여 가지로 나누고 자식 노드를 추가한다. 각 자식 노드를 다시 루트 노드..

머신러닝 개요, 앙상블 학습

1. 앙상블 학습의 개념앙상블 학습이란 여러 개의 분류기를 생성하고 각 예측들을 결합함으로써 보다 정확한 예측을 도출하는 기법입니다.앙상블 학습 → 선형 분류기와 같은 간단한 학습기로 학습을 수행하되, M개의 학습기를 결합함으로써 결과적으로 더 좋은 성능을 가진 학습기를 만들고자 하는 방법 → 고려사항: 어떤 학습기? 어떻게 결합? 학습기 선택을 위한 차별화 방법 → 학습 알고리즘의 차별화, 모델 선택과 관련된 파라미터의 차별화, 학습 데이터의 차별화 결합 방법 → 병렬적 결합, 순차적 결합 학습 데이터 생성 방법에 따른 분류 → 필터링에 의한 방법, 리샘플링에 의한 방법(예, 배깅), 가중치 조정에 의한 방법(예, AdaBoost) 2. 배깅과 보팅 배깅 → 리샘플링 기법을 적용한 학습기 선택 방법 배..

머신러닝 개요, 데이터 표현: 특징 추출

특징 추출이란, 기계 학습을 위해 원시 데이터로부터 유용한 특징들을 선택, 조합, 생성하는 과정이다. 이 과정은 다량의 원시 데이터에서 주요 정보를 식별하여 관련이 높고 차원이 낮은 표현을 제공하는 것을 목표로 한다. 특징 추출은 주로 분류, 군집화, 회귀, 예측 등의 과제에서 사용된다. 특징 추출은 전통적인 기계 학습에서 매우 중요한 역할을 하며, 주로 사람이 수행하거나 특화된 알고리즘을 이용한다. 이는 종종 높은 수준의 도메인 지식을 필요로 한다. 그러나 딥러닝이 등장하며, 인공신경망이 데이터의 원시 표현에서 복잡한 특징까지 직접 학습하는 end-to-end 학습이 가능해졌다. 따라서 딥러닝은 사람의 개입 없이 특징 추출을 자동화하고, 특징 선택의 편향을 줄이며, 복잡한 패턴을 식별할 수 있게 하였다..

머신러닝 개요, 지도학습: 선형 및 로지스틱 회귀분석

선형회귀선형 회귀 분석은 모형이 선형이라고 가정하면 엄청난 양의 데이터가 필요하지 않기 때문에 매우 인기 있는 도구입니다 ML에서는 상수 항을 바이어스, 계수를 가중치라고 합니다.선형회귀는 매개변수를 변경하여 함수를 최소화하는 것이 목적입니다. 단계는 다음과 같습니다: 모수에 대한 시작 값 선택 가장 가파른 기울기, 즉 목적 함수를 최대로 줄이기 위해 매개 변수를 변경해야 하는 방향을 찾습니다 가장 가파른 비탈길 방향으로 계곡을 따라 한 걸음씩 내려갑니다 2단계와 3단계를 반복합니다 계곡 바닥에 도달할 때까지 계속합니다로지스틱 회귀로지스틱 회귀는 선형회귀분석의 출력을 범주형으로 제한한 회귀분석으로서 분류 문제에 적용한다.이진 분류 문제에 대해 입력 x가 주어졌을 때, 클래스 레이블이 1이 될 조건부 확률..

머신러닝 개요, 비지도 학습(Unsupervised Learning)

비지도 학습(Unsupervised Learning)이란?기계 학습의 일종으로, 컴퓨터가 입력값만 있는 훈련 데이터를 이용하여 입력치들의 규칙성을 찾는 학습 방법입니다. 비지도 학습에서 우리(인간)는 아무것도 예측하려고 하지 않습니다 대신 데이터를 클러스터링(군집화)하여 환경에 대한 이해도를 높이는 것이 일차적인 목표입니다clustering customers(결합 또는 군집화 고객)당신이 은행이고 수십만 명의 고객과 각각의 특징을 설명하는 100개의 특징을 가지고 있다고 가정해 보겠습니다. 은행은 비지도 학습 알고리즘을 사용하여 고객의 요구를 예측하고 고객과 보다 효과적으로 소통할 수 있습니다. 결국 군집화는 데이터 집합의 분포 특성을 분석하여 서로 교차하지 않는 복수 개의 부분집합(군집)으로 나누는 문..

머신러닝(Machine Learning) 소개

머신러닝(Machine Learning)이란 무엇인가?머신 러닝은 AI의 한 분야입니다 기계 학습의 기본이 되는 아이디어는 컴퓨터 프로그램이 많은 데이터에 접근할 수 있도록 하고, 변수 간의 관계에 대해 학습하고 예측을 하도록 하는 것입니다. 기계 학습의 일부 기술은 1950년대로 거슬러 올라가지만 컴퓨터 속도와 데이터 저장 비용의 향상으로 기계 학습은 이제 실용적인 도구가 되었습니다. 실용적인 도구로서 Python, R, MatLab, Spark 및 Julia와 같은 몇 가지 대안이 있습니다. 매우 큰 데이터 세트를 처리할 수 있는 능력과 알고리즘을 구현하는 패키지의 가용성이 필요합니다. 이 중에서도 Python이 대세로 자리잡고 있습니다. 컴퓨터는 많은 비즈니스 결정을 자동화하는 데 사용되었습니다(페..

728x90
반응형