전체 글 102

[programmers] SQL 고득점 Kit - SUM, MAX, MIN

두번째 파트인 SUM, MAX, MIN이다. # 최대값 구하기 가장 최근에 들어온 동물은 언제 들어왔는지 조회하는 SQL 문을 작성해주세요. select DATETIME from ANIMAL_INS order by DATETIME desc limit 1 select max(DATETIME) from ANIMAL_INS - order by 한 다음에, limit해서 가장 위에 있는 애로 구하거나 - 바로 max함수를 써서 구하거나 # 중복 제거하기 동물 보호소에 들어온 동물의 이름은 몇 개인지 조회하는 SQL 문을 작성해주세요. 이때 이름이 NULL인 경우는 집계하지 않으며 중복되는 이름은 하나로 칩니다. SELECT COUNT(DISTINCT NAME) FROM ANIMAL_INS where NAME I..

[programmers] SQL 고득점 Kit - Select문

예전에 sql코테 준비할 시기에 프로그래머스 sql키트로 많이 공부했었다. 지금은 계속 파이썬으로만 하다보니 감을 잃어서 .. 키트 문법 정리하면서 다시 감 찾아보려고 정리 ! # 아픈 동물 찾기 ANIMALS_INS 테이블에서 동물 보호소에 들어온 동물 중 아픈 동물의 아이디와 이름을 조회하는 SQL 문을 작성해주세요. 이때 결과는 아이디 순으로 조회해주세요. SELECT ANIMAL_ID, NAME FROM ANIMAL_INS WHERE INTAKE_CONDITION = 'Sick' - 데이터 추출은 select문을 사용하면 된다. - 이때 AS를 활용해 컬럼명을 다르게 설정할 수 있다. # 3월에 태어난 여성 회원 목록 출력하기 MEMBER_PROFILE 테이블에서 생일이 3월인 여성 회원의 ID,..

[ADsP] 과목 3 - 정리

1장 1. 데이터 처리 - 대기업은 데이터웨어하우스와 데이터마트를 통해 분석 데이터를 가져와서 사용한다. - 신규시스템이나 DW에 포함되지 못한 자료의 경우, 기존 운영시스템이나 스테이징 영역, ODS에서 데이터를 가져와서 전처리 후 결합하여 활용한다. -운영시스템에 직접 접근해 데이터를 활용하는 것은 매우 거의 이루어지지 않으며, 가급적이면 클렌징 영역인 ODS에서 데이터의 전처리를 해서 DW나 DM과 결합하여 활용한다. 1장 3. EDA - EDA의 4가지 주제 : 저항성의 강조 / 잔차 계산 / 자료 변수의 재표현 / 그래프를 통한 현시성 1장 6. 데이터 마이닝 모델링 성능을 평가함에 있어서 - 데이터 마이닝에서는 정확도, 정밀도, 디텍트레이트, 리프트 등의 값으로 판단 - 시뮬레이션에서는 Thr..

[ADsP] 과목 2 - 2장 정리

2- 2장. 분석 마스터 플랜 1절. 마스터 플랜 수립 프레임 워크 1. 분석 마스터 플랜 수립 프레임 워크 1. 마스터 플랜 수립 개요 - 적용 우선 순위 설정 : 1) 전략적 중요도 2) 비즈니스 성과/ROI 3)실행 용이성 - 데이터 분석 구현 로드맵 수립 : 1) 업무 내재화 적용 수준 2) 분석 데이터 적용 수준 3) 기술 적용 수준 ** ISP(Information Strategy Planning) - 시스템의 중장기 로드맵 정의 - 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다. ** 분석 마스터 플랜 - 일반적인 ISP 방법론을..

[ADsP] 과목 2 - 1장 정리

2- 1장. 데이터 분석 기획의 이해 1절. 분석 기획 방향성 도출 * 데이터 사이언티스트 3가지 영역 1) 수학/통계학적 지식 2) 정보 기술(IT기술, 해킹기술, 통신기술 등) 3) 비즈니스 * 분석의 대상(What)과 분석의 방법(How)에 따른 분석 유형 4가지 1) 최적화(Optimization) What O, How O 2) 통찰(Insight) What X, How O 3) 해법(Solution) What O, How X 4) 발견(Discovery) What X, How X * 목표 시점별 분석 기획 방안 1) 과제 중심적인 접근 방식 : 당면한 과제를 빠르게 해결 문제 해결을 위함 / 목표 - Speed & Test / 과제유형 - Quick-Win / 접근방식 - Problem Solv..

SAS - 데이터 요약 및 표현 (PROC FREQ, BOXPLOT)

PROC FREQ : 범주형 자료(명목형, 순서형)로 구성된 분할표를 작성하거나, 교차분석을 하기 위함 * 범주형 자료 : 관측값의 크기 보단, 포함되는 범주에 관심을 가짐.-> 도수분포표나 분할표로 표현 범주형 자료 분석 1) 적합도 검정 : 크기 n의 관측치를 m개의 범주로 분류했을 때, 각 관측치들이 각각의 그룹에 속할 확률이 알려져있는 경우, 실제로 이러한 형태대로 관측값들이 분류되었는지 검정 2) 독립성 검정 : 두개의 변수가 서로 상관이 있는가? 연관이 있는가? 서로 독립인가? 행변수와 열변수 간의 독립성 여부 검정 ( 카이제곱 통계량에 기초) EX) H0 : A와 B는 서로 상관관계가 없다 = 독립이다 H1 : A와 B는 서로 상관이 있다. 3) 동질성 검정 : 두 개의 변수의 확률이 서로 ..

SAS - 데이터 요약과 표현 (PROC PRINT, MEANS, UNIVARIATE)

데이터요약과 표현 : PROC PRINT / MEANS / UNIVARIATE / FREQ / BOXPLOT / STANDARD 1. PROC PRINT 형식 : PROC PRINT DATA = VAR (출력할 변수) BY (정렬) SUMBY (소계) PAGEBY (페이지별 출력) SUM (변수 총합 출력) WHERE (조건) 데코레이션 : NOOBS (OBS 미출력) LABEL (라벨 출력, 지정) FORMAT (출력 포맷 지정) OPTIONS (출력크기 지정) TITLE (머릿말) FOOTNOTE (꼬리말) # 예시 # 첫 3줄 출력 :PROC PRINT DATA=class(obs=3);RUN; # 관측치(obs) 제외하고 출력 :PROC PRINT DATA=class NOOBS;RUN; # ID 문..

SAS - 데이터 셋의 결합 및 관리 (merge, do-loop문, 자동변수, 외부파일 put문)

드디어 6장 !! SAS 데이터 셋의 결합 및 관리 !! 1. 세로 결합 / 가로 결합 2. 데이터셋 옵션의 사용 3. DO - END 명령문 4. 자동변수 5. 외부파일로 데이터 출력하기 6. 데이터 내보내기 마법사 # 데이터 셋 결합 : 세로 결합 & 가로 결합 @@ 세로 결합 : 두 데이터 셋을 수직적으로 결합 . 변수 기준으로 합친다 : 세로로 붙여서 밑으로 길어짐 방법은 set, drop, keep 명령문들을 써서 합쳐준다. +) 복사하는 법 : set 데이터 셋 +) 변수 부분 선택하는 법 : drop 변수명 / keep 변수명 +) 연결 : set 데이터 셋1 데이터셋2 ; set에 여러 개 넣어주기 @@ 가로 결합 : MERGE 명령문, UPDATE 명령문 + PROC SORT : 두 데이..

SAS - 구분자(dlm, dsd) , 할당문, 날짜함수

# 구분자의 종류 : DLM , DSD 1) DLM -여러 개의 문자를 지정 -연속된 구분자는 1개로 간주함 -기본 구분자는 공백 2) DSD -연속된 구분자는 결측값 포함 -문자열 " "로 표시 -기본 구분자는 ',' 쉼표 이다. 3) TAB구분자 : EXPANDTABS DLM은 연속된 구분자를 1개로 간주 & 기본 구분자는 공백 1aa2ab3 -> 1(공백)(공백)2(공백)(공백)3 ->1(공백)2(공백)3 -> 123 4b5bab6 -> 4(공백)5(공백)(공백)(공백)6 -> 4(공백)5(공백)6->456 7a8b9 -> 7(공백)8(공백)9 -> 789 -DSD는 연속된 구분자는 결측값 포함 - DSD가 있는 경우 공백 사이에 .을 추가 공백이 둘이면 (공백).(공백) 공백이 셋이면 (공백).(..