前言-课程内容

CH1 数据预处理

CH2 数据挖掘/KDD

CH3 信息检索(Information Retrieval)

CH4 数字图像处理

数据及特征

1. Data Objects and Attribute Types

1) Types of Data Sets:

  • Record: Relational records, Data matrix, Document data, Transaction data
  • Graph & Network
  • Ordered: vedio data
  • Spatial, image and multimedia

2) Data objects (samples, examples, instances, data points, objects, tuples)

  • Data sets are made up of data objects.

  • A data object represents an entity.

  • Data objects are described by attributes.

  • Database rows -> data objects; columns ->attributes.

3) Attributes (dimensions, features, variables)

  • Definition: A data field, representing a characteristic or feature of a data object.

  • Atttibutes Types:4

    1. Nominal (名称型):表示类别状态或者其他由名称决定的属性

      例:Hair_color = {black, blond, brown, grey, red, white}. marital status, occupation, ID numbers, zip codes (此处邮编和ID虽然是数字但是具有名称性含义,并不表示数值含义)

    2. Binary: 仅有0,1. 是特殊的Nominal Attributes

      • Symmetric binary: 结果同等重要. 如:性别
      • Asymmetric binary:结果不同等重要. 如:medical test (P, N), 通常认为阳性更重要
    3. Ordinal: 值有有意义的顺序,但相邻的值之间的差距无法量化

      例:Size ={small, medium, large},grades, army rankings

    4. Numeric: 数值

      • :

        Measured on a scale of equal-sized units. 值有顺序,可为0, +, -

        No true zero-point 无绝对零点

        无比例关系

        例:温度C˚o F˚,日期 (人为定义,无物理意义)

      • :

        Inherent zero-point 有绝对零点

        有比例关系

        例:温度Kelvin, length, counts, monetary quantities, price

        摄氏温度的值之间没有比率意义,我们不能说2摄氏度是1摄氏度的2倍,也不能说1摄氏度是2度的二分之一。就像我们不能说1月2日是1月1日的2倍一样,这些摄氏温度值和时间值只有区间度量意义,没有比率关系意义。true zero-point是具有比率关系的基础,没有true zero-point,也谈不上比率关系


2. Basic Statistical Descriptions of Data

数值描述

  1. 描述中心趋势

    • Mean: 不加权/加权

    • Median:排序->找中位数

      Estimated by interpolation (for grouped data)

      例:估计中位数

      L1:上一个分组最大值->20

      n:数据集中所有数据个数->3194. n/2:中值所在位置

      $\sum$freq:中值所在分组之前所有组的频率之和->200+450+300=950

      freq-median:中值所在分组值的个数->1500

      width:中值所在分组宽度->50-20=30

      • Mode:众数,可能有多个
  2. 描述离散程度

    • Quartiles: 排序,找中位数,找第一四分位数(Q1),第三四分位数(Q3)

      Inter-quartile range (IQR)=Q3-Q1

      Five number summary: min, Q1, median, Q3, max

    • Variance and Standard deviation


图形描述

  1. Boxplot
    • Five number summary
    • Outliers:在箱型图外面的点
  2. Histogram (直方图)
    • x轴的值被分为许多subranges (buckets, bins)
    • 一个bucket的width是这个bucket的range (极差=max-min)
    • 直方图比箱型图更详细,两种不同数据分布可能有相同箱型图和不同的直方图
  3. Scatter plot
    • bivariate data,一般用二元坐标描述
    • Correlations of two attributes: positive, negative, or null (uncorrelated).

​ 正相关 负相关 阶段状:左侧正相关,右侧负相关

​ 不相关



学习笔记   信息处理技术     

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!