전체 글
[ADsP] 1과목 - 1장. 데이터의 이해
1장. 데이터의 이해 데이터의 정의? 객관적 사실 존재적 특성 추론, 예측 , 전망 추정을 위한 당위적 특성 하나로는 의미가 없고 객체와 상호관계 속에서 가치를 갖는다. 데이터의 유형 정성적 데이터 언어 , 문자 정량적 데이터 수치 , 기초 , 도형 지식경영 암묵지 + 형식지의 상호작용 속에서 지식이 공유되며 생성이 된다. 암묵지 : 학습과 체험을 통해 개인에게 습득 ( 공유되기 어려움 ) " 노하우 " , " 김장김치담그기 " , " 자전거타기 " 형식지 : 형상화된 지식 " 교과서", "메뉴얼" , " 비디오" ( 지식의 공유가 용이 ) 암묵지 + 형식지의 4단계 지식전환 모드 1단계 공통화 암묵지 지식 노하우를 다른 사람에게 알려주는 것 2단계 표출화 암묵적 지식 노하우를 책이나 교본 등 형식지로 ..
[R] 기본 요약 정리 ( data frame , 데이터 읽기/쓰기 , apply() 함수 , 데이터 찾기 )
데이터 프레임 ( Data frame ) 데이터 프레임은 숫자형 벡터 ,문자형 벡터 등 서로 다른 형태의 데이터를 2차원 데이터 테이블 형태로 묶을 수 있는 자료구조이다. 데이터프레임 만들기 data,frame() 함수를 이용하여 만든다. ciry
[R] 기본 요약 정리 ( 연산 , 자료형 , vector , factor , list )
RStudio 패키지 설치 및 사용 #패키지 설치 install.packages("패키지 이름") #패키지 사용 library("패키지 이름") 산술 연산 함수 함수 의미 사용 예 log() 로그함수 log(10), log(10, base = 2) sqrt() 제곱근 sqrt(36) max() 가장 큰 값 max(3,9,5) min() 가장 작은 값 min(3,9,5) abs() 절대값 abs(-10) factorial() 팩토리얼 factorial(5) sin(), cos() , tan() 삼각함수 sin(pi/2) R에서 사용할 수 있는 값들의 자료형 자료형 사용 예 비고 숫자형 1,2,3, -4, 12.8 정수와 실수 모두 가능 문자형 'Tom' , 'Jane' 작은 따옴표나 큰 따옴표로 묶어서 표..
[Machine Learning] 단순선형회귀분석(Simple Linear Regression) 예제 ,pandas , numpy , plot
Machine Learning 머신러닝 먼저 회귀분석에 대해서 알아봅시다. 2020/04/22 - [데이터사이언스/머신러닝] - [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 [기계학습] 4. 회귀분석 , 회귀계수 추정 , Matrix 미분 활용 회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습. acdongpgm.tistory.com 패키지 설치 import os import pandas as pd import numpy as np import statsmodels.api as..
[공공데이터] OPEN API를 활용하여 json 데이터 추출하기 ( 공공데이터 API)
공공데이터 포털 회원가입/로그인 https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr API 사용 요청 / 키 발급 홈페이지 -> 로그인 -> 데이터셋 -> 오픈API -> 원하는 데이터 API 검색 활용신청 클릭 신청을 완료한뒤 마이페이지 -> 개발계정 상세보기 일반 인증키 복사 API 문서(specification) 확인 API 에 대한 설명이 페이지안에 기록되어있는 경우도 있지만 보통은 참고문서에 사용메뉴얼문서가 첨부되어있음 메뉴..
[기계학습]회귀계수의 의미 , 희귀계수 검정 ( SST , SSE , SSR , P-value )
회귀 계수의 해석 예시) radio 광고 예산과 매출 간의 관계 Radio광고 예산이 1 증가할 때마다 매출은 0.2 단위만큼 증가한다. 그때의 유의성은 매우 높다. 잠깐!! 유의성이란? 데이터가 유의미한지 아닌지를 판단하는 기준 P-value를 통해 유의성 검정을 실시한다. Radio 광고 예산이 35 단위일 때 예상 매출액은 9.312 + 0.203*35 = 16.42 단위이다. 선형 회귀의 정확도 평가 선형 회귀는 잔차의 제곱합(SSE : Error sum of squares )을 최소화하는 방법으로 회귀 계수를 추정 즉 , SSE가 작으면 작을수록 좋은 모델이라고 볼 수 있음 MSE(Mean Squared Error)는 SSE를 표준화한 개념 SSE 가 작아지면 MSE 도 작아짐 선형 회귀의 정확..
[SQL] 기본 쿼리문 ( SELECT , WHERE , INSERT , UPDATE , DELETE ,ORDER BY)
SQL 공부하기 좋은 사이트 https://www.w3schools.com/sql/default.asp SELECT : 데이터베이스를 불러오는 기능을 한다. 형식 : SELECT column_name, column_name2... FROM table_name; - table_name 안에 있는 column_name(항목이름) 을 불러온다. SELECT * FROM table_name; - table_name 전체를 불러온다. DISTINCT : SELECT 와 함께 사용되며 중복되지않는 유일한 값만 불러오는 기능을 한다. 형식 : SELECT DISTINCT column_name, column_name2... FROM table_name; 예제 : SELECT DISTINCT city FROM Custo..
[주식]삼성전자 우선주 배당금 받았어요!! ( 삼성전자 배당금 총정리 )
안녕하세요. 저번에 제가 존리의 부자 되는 습관이라는 책을 통해 소비습관을 고쳐 여유자금을 만들어 조금씩 주식투자를 해왔었는데요. 삼성전자(우) 배당금이 나왔습니다. 짝짝짝!! 얼마 안되지만 돈이 돈을 벌었다는 의미에서 엄청 뜻깊은 일인 거 같아요. 그리고 주식의 양이 많아 질 수록 배당금의 양도 많아질 테니 투자에 대한 욕구도 대폭 상승했습니다. 먼저 배당금 인증하고 삼성전자에 배당금에 대해서 알아볼게요. 지금은 40주를 보유하고 있지만 배당일 기준으로 30주에 대한 배당금만 나왔어요. 삼성전자 배당금 기준일은 2019년 12월 31일로, 배당금을 받기 위해서는 12월 31일의 D-3일인 12월 26일까지 삼성전자 주식을 보유했었어야 배당금을 받을 수 있는 자격이 생깁니다. 배당금은 기준일에 삼성전자 ..
[기계학습]회귀분석 , 회귀계수 추정 , Matrix 미분 활용
회귀분석이란? 회귀 분석에 들어가기 전에 먼저 지도 학습(Supervised Learnig)과 비지도 학습(Unsupervised Learning)에 대해서 알아봅시다. 2020/03/19 - [데이터 사이언스/머신러닝] - [기계학습] 2. 지도 학습과 비지도 학습 [기계학습] 2. 지도학습과 비지도학습 지도학습(supervised learning) Y = f (x) 에 대하여 입력변수 (X) 와 출력변수 (Y) 의 관계에 대하여 모델링하는 것 (Y에 대하여 예측 또는 분류하는 문제) 회귀 (regression) : 입력 변수 X에 대하여 연속형 출.. acdongpgm.tistory.com 회귀분석은 지도 학습에 한 종류이며 Y = f(x)에 대하여 입력 변수(X)와 출력 변수 (Y)의 관계에 대하여..
[기계학습]과적합(overfitting)이란?
과적합(overfitting)이란? 너무 과도하게 데이터 모델을 학습(learning)을 한 경우를 의미 학습 데이터에는 잘 맞지만 검증 데이터(테스트 데이터)에 잘 맞지 않는 것 복잡한 모형일수록, 데이터가 적을수록 과적합이 일어나가 쉽다. 데이터가 많으면 복잡한 모형을 써도 과적합이 잘 발생하지 않음 분산(variance)와 편파성(bias)의 트레이드오프(Tradeoff) 딜레마 분산(var) : 전체 데이터의 집합 중 다른 학습 데이터를 이용했을 때, f^ 이 변하는 정도 * 복잡한 모형일 수록 분산이 높음 편파성(bias) : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 * 간단한 모형일 수록 편파성이 높음 용어 정리 : Tradeoff : 트레이드 오프 , 두 가지 중에 하나가 증가..