데이터 스터디/SAS 11

SAS - 데이터 요약 및 표현 (PROC FREQ, BOXPLOT)

PROC FREQ : 범주형 자료(명목형, 순서형)로 구성된 분할표를 작성하거나, 교차분석을 하기 위함 * 범주형 자료 : 관측값의 크기 보단, 포함되는 범주에 관심을 가짐.-> 도수분포표나 분할표로 표현 범주형 자료 분석 1) 적합도 검정 : 크기 n의 관측치를 m개의 범주로 분류했을 때, 각 관측치들이 각각의 그룹에 속할 확률이 알려져있는 경우, 실제로 이러한 형태대로 관측값들이 분류되었는지 검정 2) 독립성 검정 : 두개의 변수가 서로 상관이 있는가? 연관이 있는가? 서로 독립인가? 행변수와 열변수 간의 독립성 여부 검정 ( 카이제곱 통계량에 기초) EX) H0 : A와 B는 서로 상관관계가 없다 = 독립이다 H1 : A와 B는 서로 상관이 있다. 3) 동질성 검정 : 두 개의 변수의 확률이 서로 ..

SAS - 데이터 요약과 표현 (PROC PRINT, MEANS, UNIVARIATE)

데이터요약과 표현 : PROC PRINT / MEANS / UNIVARIATE / FREQ / BOXPLOT / STANDARD 1. PROC PRINT 형식 : PROC PRINT DATA = VAR (출력할 변수) BY (정렬) SUMBY (소계) PAGEBY (페이지별 출력) SUM (변수 총합 출력) WHERE (조건) 데코레이션 : NOOBS (OBS 미출력) LABEL (라벨 출력, 지정) FORMAT (출력 포맷 지정) OPTIONS (출력크기 지정) TITLE (머릿말) FOOTNOTE (꼬리말) # 예시 # 첫 3줄 출력 :PROC PRINT DATA=class(obs=3);RUN; # 관측치(obs) 제외하고 출력 :PROC PRINT DATA=class NOOBS;RUN; # ID 문..

SAS - 데이터 셋의 결합 및 관리 (merge, do-loop문, 자동변수, 외부파일 put문)

드디어 6장 !! SAS 데이터 셋의 결합 및 관리 !! 1. 세로 결합 / 가로 결합 2. 데이터셋 옵션의 사용 3. DO - END 명령문 4. 자동변수 5. 외부파일로 데이터 출력하기 6. 데이터 내보내기 마법사 # 데이터 셋 결합 : 세로 결합 & 가로 결합 @@ 세로 결합 : 두 데이터 셋을 수직적으로 결합 . 변수 기준으로 합친다 : 세로로 붙여서 밑으로 길어짐 방법은 set, drop, keep 명령문들을 써서 합쳐준다. +) 복사하는 법 : set 데이터 셋 +) 변수 부분 선택하는 법 : drop 변수명 / keep 변수명 +) 연결 : set 데이터 셋1 데이터셋2 ; set에 여러 개 넣어주기 @@ 가로 결합 : MERGE 명령문, UPDATE 명령문 + PROC SORT : 두 데이..

SAS - 구분자(dlm, dsd) , 할당문, 날짜함수

# 구분자의 종류 : DLM , DSD 1) DLM -여러 개의 문자를 지정 -연속된 구분자는 1개로 간주함 -기본 구분자는 공백 2) DSD -연속된 구분자는 결측값 포함 -문자열 " "로 표시 -기본 구분자는 ',' 쉼표 이다. 3) TAB구분자 : EXPANDTABS DLM은 연속된 구분자를 1개로 간주 & 기본 구분자는 공백 1aa2ab3 -> 1(공백)(공백)2(공백)(공백)3 ->1(공백)2(공백)3 -> 123 4b5bab6 -> 4(공백)5(공백)(공백)(공백)6 -> 4(공백)5(공백)6->456 7a8b9 -> 7(공백)8(공백)9 -> 789 -DSD는 연속된 구분자는 결측값 포함 - DSD가 있는 경우 공백 사이에 .을 추가 공백이 둘이면 (공백).(공백) 공백이 셋이면 (공백).(..

SAS - 변수 속성 할당

1. LABEL 명령문 LABEL 변수1 = '라벨이름' 변수2='라벨이름' ....; 2. FORMAT 명령문 FORMAT 변수이름 출력형식 이때, 출력형식 종류 ! $4. (문자형 4글자) , 12. (소수0번째 자리 까지 나타내 = 정수 나타내), 12.2 (소수 두번째 자리까지 나타내), COMMA12.2(천번째에 쉼표 사용하고 소수2번째 자리까지 나타내기. 총 12글자까지 읽을 수 있어) DOLLAR12.2(달러랑 쉼표 사용하기) YYMMDD10.(1961-01-01) 3. RENAME 원래 변수명 = 바꾸고자 하는 새로운 변수명 ex) total = sum => total 변수이름을 sum으로 변경 ! 4. TITLE문 FOORNOTE문 5. RETAIN문 바로 직전의 data 단계에서 숳ㅇ된..

SAS - 함수(문자, 난수, 날짜, 숫자 절단, 형변환)

4장. DATA STEP 2 ​01. 변수의 정의 02. 새로운 변수 생성 03. SAS 함수 # SAS 함수 -SAS함수는 해당 함수명과 그에 따르는 인수를 필요로 하며 반드시 괄호() 안에 입력해야 한다. - 기본 형식 : 함수명(인수1, 인수2, ----) - 난수함수 : 특정 분포로부터 유사 확률난수를 발생 - 확률밀도함수와 분포함수 -표본통계량함수 : 총 17가지 표본통계량 -산술함수 : 최소, 최대, 평균 등 - 수학함수 : 지수, 로그, 감마함수 등 -분위수함수 : 특정확률분포의 분위수 계산 - 문자함수 : 특정문자에 대한 연산을 수행 # 문자함수 ex) TRIM - trim 옵션과 ||를 이용하여 공백없이 다른 열의 data 붙이기 [예시] 1단계. 데이터셋 a_1 만들기 2단계. || 만..

SAS - 데이터 읽기 실습 (input, infile, proc import, dlm='')

3장. DATA STEP 1 이번엔 저번에 다루었던 RAW DATA 읽기 명령문을 사용해서, 데이터 실습해보자 이때 잠깐, WORK 탐색기에 너무 많은 데이터셋이 저장되어 있다. 이를 지울려면 하나 하나 지울수도 있지만 PROC DELETE DATA=삭제하려는 데이터셋; RUN; 을 해보자 EX. proc DELETE data=one1-one7; run; 1. COLUMN INPUT : 고정 포맷 & 표준 데이터 유형 - 열 번호 지정 - 자료값이 고정된 열을 갖고 있어야 함 : 시작 위치 - 끝 위치 표시 -- 문법 : 변수명 / 변수유형($인지 아닌지) / 시작위치-끝위치 EX. age 1-2, gen$ 6-18, gen$3-3 = gen$3 COLOUMN INPUT은 시작위치, 끝 위치를 지정하기 ..

SAS - raw 데이터 읽기 (length, & : 연산자)

3장. DATA STEP 1 지난 번에 이어서 데이터 읽기 중 RAW DATA 읽기 문장 구성 * DATA 문장 *INFILE 문장 : INFILE 키워드 옆에 읽어 올 외부 파일의 경로 및 파일명을 따옴표 안에 지정 --firstobs : 자료를 불러들이기 시작하는 obs 지정. 두번째 줄부터 시작한다면 firstobs=2 라고 설정 --expandtabs : 자료의 사이가 tab으로 떨어져있는 경우 # RAW DATA 형태 - 고정(fixed-format) / - 자유(free-format) / -표준데이터유형(문자, 숫자 포함) / - 비표준데이터유형 1. 고정 포맷 & 표준 데이터 유형 => COLUMN INPUT - 각 변수의 값을 읽는 위치가 모든 레코드에서 동일하다. - 문법 : 변수명 / ..

SAS - 데이터 입력 및 읽기 (list input, column input, formatted input, set, infile)

3장. DATA STEP 1 DATA Step에는 일반적으로 다음 중 하나의 문장이 있다. INPUT, SET, MERGE, UPDATE (이중에 input, set, merge 는 배운 상태, update는 초면 .. ) # 데이터 입력 방법 -list input(자유 입력), - column input(열 지정 입력) - formatted Input(포맷 입력) 1. 자유 입력_List Input - INPUT 문과 CARDS문 사용 (앞에서 흔히 쓰던 거) - INPUT : $는 문자형 변수에 사용 - CARDS : INPUT 자료의 개수만큼 관측값 입력, 빈칸(스페이스바)로 구분하기 - RUN : 단계가 끝남 * 자유 입력 시 주의할 점 ! input에 지정한 변수 개수랑 card에 넣은 관측값 ..