Posts Data Analysis Practice 45 Lessons
Post
Cancel

Data Analysis Practice 45 Lessons

Data Analysis

陈炀 清华大学计算机博士

开篇 MAS 学习法

  • Multi-dimention 多角度认识
  • Ask 多问
  • Sharing 分享

数据分析的三个组成部分

  • 数据采集
    • 数据源
    • 八抓鱼
    • Python爬虫
  • 数据挖掘
    • 算法
  • 数据可视化
    • Python (Matplotlib, Seaborn)
    • 第三方工具 (微图, DataV

两个原则

  • 不要重复造轮子
  • 工具决定效率

数据挖掘

  1. 商业理解
  2. 数据理解
  3. 数据准备
  4. 模型建立
  5. 模型评估
  6. 上线发布

数据挖掘十大算法

  • 分类算法: C4.5, 朴素贝叶斯, SVM, KNN, Adaboost, CART
  • 聚类算法: K-Means, EM
  • 关联分析: Apriori
  • 连接分析: PageRank

数学理论

  1. 线性代数
  2. 图论
  3. 最优化方法
This post is licensed under CC BY 4.0 by the author.

Recent Update

    Trending Tags

    Contents

    Trending Tags