Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
3 changes: 2 additions & 1 deletion DassomLee/20180629_statistics&constitution
Original file line number Diff line number Diff line change
@@ -1,9 +1,10 @@

• 차원이 늘어날 수록(=변수가 늘어날 수록) 각 변수에 대한 정보가 기하급수적으로 증가하게 됨
• 반대로 전체의 관점에서 보면, 차원이 늘어날수록 20%에 해당하는 부분이(=전체 대표값이) 각 변수의 값을 포함하는 부분이 적어짐 which means 대표값이 각 값을 대변하지 못함
• 반대로 전체의 관점에서 보면, 차원이 늘어날수록 20%에 해당하는 부분이(=전체 대표값이) 각 변수의 값을 포함하는 부분이 적어짐. 대표값이 각 값을 대변하지 못함
• 오버피팅; overfitting(너무 적을 때) & 언더피팅(너무 많을 때) --> 변수는 너무 많아도, 너무 적어도 안좋아. 적당히 있어야~적당히~
• SEMMA; Sample, Explore, Modify, Model, Assess. SAS에서 만든 방법론 --> 제일 중요한건 Explore
• EDA; Exploratory Data Analysis. 탐색적 자료 분석. 데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법. 다양한 시도를 해야함. 분석의 첫 단계.데이터의 패턴/규칙을 파악할 수 있음

• 자료의 분류
• 수치형변수numerical variable
○ 연속형변수continous: 자세하게 하자면 계속 늘어날 수 있어
Expand Down
Loading