Data Type and Data Preprocessing




Data Type



categorical or qualitative attribure

Nominal: values that are distinct symbols

ex: ID numbers, eye color, zip codes

Ordinal - possible to rank the categories

ex: height in (tall, medium, short)


numeric or quantitative attribure

interval: values that are ordered and measured in fixed and equal units

ex; calendar dates, temperatures in celsius or fahrenheit

ratio: treated as real numbers

ex: length, mass, counts



Attribute values의 특성



Nominal attribute는 distinctness 로 구별이 가능한 것들을 말한다.

Ordinal attribute는 distinctness & order 이다. 

Interval attribute는 distinctness, order & addtion

Ratio attribute: all 4 properties



Types of data sets

- Record data

레코드들이란 고정된 attribute들의 집합으로 구성 된 것들을 말한다.


- Data Matrix

여러개의 dimension을 지원하는 데이터 형태이며,

각각의 dimension들은 하나의 distinct attribute가 된다.


- Document Data

각 도큐먼트들은 어떤 'term' vector가 된다.

각각의 term들은 백터의 컴포넌트가 된다.



- Transaction Data

레코드 데이터의 특별한 타입을 말한다.



- Graph Data

HTML 이나 Web에서 주로 사용 한다.


- Ordered Data

Genomic sequence data






Data pre-processing


Aggregation

Sampling

Dimensionality Reduction

Feature selection

Feature extraction

Discretization and Binarization

Attribute Transformation



The curse of Dimensionality


Dimension이 증가하면 전체 공간에서 data가 차지하는 비중이 작아 지게 된다.





Similarity and Dissimilarity


Similarity

두 데이터가 numerical 할때 둘 사이의 유사도를 비교하는 것이다.

값이 높다면 좀더 유사하다고 할 수 있다.

이것은 [0,1] 사이의 값을 가진다.


Dissimilarity

Numerical measure에 대해서 두개의 object들이 얼마만큼 다른지를 판별 한다.

낮은 값은 좀더 alike 하다고 할 수 있다.

최소의 dissimilarity는 0이다.

최대는 보통 제한이 없다.

1로 맞추기 위해서는 range를 알아서 그 값으로 나누어야 하는데, 구지 그러한 노력을 하는 것이 큰 의미가 없기 때문이다.






Distance의 종류

  • Euclidean
  • Minkowski 
  • Mahalanobis 





Euclidean Distance


백터의 개념을 집어 넣을 수 있기 때문에,

n은 dimensions(attributes)의 수이다.

하나의 attribute들이 x,y,z,... 이 되고

이것들이 각각 차원이 되므로


공간상에 두 점을 잊는 백터의 길이가 Euclidean Distance라고 할 수 있다.




예제를 통한 계산


p1과 p2







Minkowski Distance 


generalization of Euclidean Distance 


r은 어떠한 parameter 이다

n은 dimension의 수이다. 즉, attribute의 수이다.

p와 q는 서로다른 데이터 오브젝트를 의미한다.


이제 각각의 r에 따라서 알아 보겠다.




Hamming distance는 2개의 binary vector들 사이에 서로다른 bit의 수를 나태내게 된다.




위와 똑같은 데이터를 가지고
r에 따른 Minkowski Distance를 계산해 보자.

r=1의 의미는 Hamming Distance를 계산 하는 것이다.




Mahalanobis Distance  


각 dimension들간의 scale이 차이가 심하여, Distance에 크게 영향을 미치는 현상을 제거하는 것이다.
즉, 원래의 타원형 데이터를 원형으로 다시 re-scaling 하여 계산 하는 형태이다.



공분산 행렬 (co-variance Matrix)이 아래와 같다고 치자.



참고




co-variance (공분산)을 구하는 방법.

m은 데이터의 갯수를 의미한다.

i는 하나의 attribute, 하나의 dimension을 의미하고

j는 또 다른 하나의 Attribute를 의미한다.


각각의 데이터를 평균과 뺀 다음 둘을 곱한것들의 합이기 때문에


양수가 나오는 경우 (+)(+), (-)(-) 형태의 데이터가 많은 것을 나타내며,

음수가 나오는 경우 (+)(-), (-)(+) 형태의 데이터가 많은 것을 나타낸다.


따라서,

Covariance가 양수면 두개의 attribute들이 비례 관계를 가지는 것을 의미한다.

음수라면, 두개의 attribute들이 반비례 관계를 가지는 것을 의미한다.



마지막, 

의 뜻은

각 dimension에서의 covariance combination을 타나내는 matrix을 의미한다.


two dimension의 경우 2x2 matrix이 생성 되고

n dimension의 경우 nxn의 matrix이 생성된다.







Distance와 Similarity 사이 에서의 일반적인 성질에 다해서 다루워 보겠다.









Cosine Similarity





Binary Vector의 경우


Simple Matching Coefficient (SMC)

number of matches / number of attributes


Jaccard Coefficient (useful for asymmetric attribute)

J = number of 11 matches / number of not-both-zero attributes values





Correlation






















'Data Science > Theory' 카테고리의 다른 글

K Nearest Neighbors - Classification  (0) 2015.04.23
Performance Evaluation  (0) 2015.04.19
Classification: Decision Tree  (2) 2015.04.19
Data Type and Data preprocessing  (0) 2015.04.18
Support Vector Machine  (0) 2015.04.17
Perceptron and Multiclass perceptron  (0) 2015.04.06

+ Recent posts