陈炀 清华大学计算机博士
开篇 MAS 学习法
- Multi-dimention 多角度认识
- Ask 多问
- Sharing 分享
数据分析的三个组成部分
- 数据采集
- 数据源
- 八抓鱼
- Python爬虫
- 数据挖掘
- 算法
- 数据可视化
- Python (Matplotlib, Seaborn)
- 第三方工具 (微图, DataV
两个原则
- 不要重复造轮子
- 工具决定效率
数据挖掘
- 商业理解
- 数据理解
- 数据准备
- 模型建立
- 模型评估
- 上线发布
数据挖掘十大算法
- 分类算法: C4.5, 朴素贝叶斯, SVM, KNN, Adaboost, CART
- 聚类算法: K-Means, EM
- 关联分析: Apriori
- 连接分析: PageRank
数学理论
- 线性代数
- 图论
- 最优化方法