Data Type and Data Preprocessing
Data Type
categorical or qualitative attribure
Nominal: values that are distinct symbols
ex: ID numbers, eye color, zip codes
Ordinal - possible to rank the categories
ex: height in (tall, medium, short)
numeric or quantitative attribure
interval: values that are ordered and measured in fixed and equal units
ex; calendar dates, temperatures in celsius or fahrenheit
ratio: treated as real numbers
ex: length, mass, counts
Attribute values의 특성
Nominal attribute는 distinctness 로 구별이 가능한 것들을 말한다.
Ordinal attribute는 distinctness & order 이다.
Interval attribute는 distinctness, order & addtion
Ratio attribute: all 4 properties
Types of data sets
- Record data
레코드들이란 고정된 attribute들의 집합으로 구성 된 것들을 말한다.
- Data Matrix
여러개의 dimension을 지원하는 데이터 형태이며,
각각의 dimension들은 하나의 distinct attribute가 된다.
- Document Data
각 도큐먼트들은 어떤 'term' vector가 된다.
각각의 term들은 백터의 컴포넌트가 된다.
- Transaction Data
레코드 데이터의 특별한 타입을 말한다.
- Graph Data
HTML 이나 Web에서 주로 사용 한다.
- Ordered Data
Genomic sequence data
Data pre-processing
Aggregation
Sampling
Dimensionality Reduction
Feature selection
Feature extraction
Discretization and Binarization
Attribute Transformation
The curse of Dimensionality
Dimension이 증가하면 전체 공간에서 data가 차지하는 비중이 작아 지게 된다.
Similarity and Dissimilarity
Similarity
두 데이터가 numerical 할때 둘 사이의 유사도를 비교하는 것이다.
값이 높다면 좀더 유사하다고 할 수 있다.
이것은 [0,1] 사이의 값을 가진다.
Dissimilarity
Numerical measure에 대해서 두개의 object들이 얼마만큼 다른지를 판별 한다.
낮은 값은 좀더 alike 하다고 할 수 있다.
최소의 dissimilarity는 0이다.
최대는 보통 제한이 없다.
1로 맞추기 위해서는 range를 알아서 그 값으로 나누어야 하는데, 구지 그러한 노력을 하는 것이 큰 의미가 없기 때문이다.
Distance의 종류
- Euclidean
- Minkowski
- Mahalanobis
Euclidean Distance
백터의 개념을 집어 넣을 수 있기 때문에,
n은 dimensions(attributes)의 수이다.
하나의 attribute들이 x,y,z,... 이 되고
이것들이 각각 차원이 되므로
공간상에 두 점을 잊는 백터의 길이가 Euclidean Distance라고 할 수 있다.
예제를 통한 계산
p1과 p2
Minkowski Distance
r은 어떠한 parameter 이다
n은 dimension의 수이다. 즉, attribute의 수이다.
p와 q는 서로다른 데이터 오브젝트를 의미한다.
이제 각각의 r에 따라서 알아 보겠다.
Hamming distance는 2개의 binary vector들 사이에 서로다른 bit의 수를 나태내게 된다.
Mahalanobis Distance
co-variance (공분산)을 구하는 방법.
m은 데이터의 갯수를 의미한다.
i는 하나의 attribute, 하나의 dimension을 의미하고
j는 또 다른 하나의 Attribute를 의미한다.
각각의 데이터를 평균과 뺀 다음 둘을 곱한것들의 합이기 때문에
양수가 나오는 경우 (+)(+), (-)(-) 형태의 데이터가 많은 것을 나타내며,
음수가 나오는 경우 (+)(-), (-)(+) 형태의 데이터가 많은 것을 나타낸다.
따라서,
Covariance가 양수면 두개의 attribute들이 비례 관계를 가지는 것을 의미한다.
음수라면, 두개의 attribute들이 반비례 관계를 가지는 것을 의미한다.
마지막,
의 뜻은
각 dimension에서의 covariance combination을 타나내는 matrix을 의미한다.
two dimension의 경우 2x2 matrix이 생성 되고
n dimension의 경우 nxn의 matrix이 생성된다.
Distance와 Similarity 사이 에서의 일반적인 성질에 다해서 다루워 보겠다.
Cosine Similarity
Binary Vector의 경우
Simple Matching Coefficient (SMC)
number of matches / number of attributes
Jaccard Coefficient (useful for asymmetric attribute)
J = number of 11 matches / number of not-both-zero attributes values
Correlation
'AI > Theory' 카테고리의 다른 글
K Nearest Neighbors - Classification (0) | 2015.04.23 |
---|---|
Performance Evaluation (0) | 2015.04.19 |
Classification: Decision Tree (2) | 2015.04.19 |
Support Vector Machine (0) | 2015.04.17 |
Perceptron and Multiclass perceptron (0) | 2015.04.06 |