携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第30天,点击查看活动详情
说明
本系列博客将记录自己学习的课程:NLP实战高手课,链接为:time.geekbang.org/course/intr… 本篇为29-30节的课程笔记,主要介绍经典的结构化数据挖掘方法和表格化数据挖掘的基本流程。
什么是结构化数据
结构化数据指的主要是表格数据(Tabular Data),一种最简单的举例比如它会是可以记载在 Excel 表格中的表格数据,每列数据一般称之为一个变量(字段),按变量类型可以分为离散型变量和连续型变量,而现实生活中,绝大多数的数据都是表格数据(或可以转化为表格数据)。
结构化数据的传统建模流程
传统来说(在某种意义上仍是如此),结构化数据常常要求大量的业务理解,其中探索性数据分析往往占很大成分,大约90% 时间花在清洗数据和探索性分析上。传统的建模流程中往往需要工程师在现有数据的基础上手动选取特征,这需要对业务有很好的理解能力,然而,如果没有实验,这种业务理解能力则是无法获取,因而传统的建模流程存在一个最核心的悖论:业务理解从哪里来?
除此之外,还有以下问题需要解决:
- 高维稀疏变量
- 较差的变量质量
- 类似的业务理解能力
- 业务的多变性
数据挖掘竞赛和新的建模流程:竞赛基本流程和挑战
数据挖掘竞赛中,参赛者往往也没有业务理解,而且只有少数提交机会,由于测试集和训练集可能不一样,这将要求建模结果必须稳定;同时,由于竞赛时间短暂,必须充分利用时间。最重要的一点是:数据挖掘竞赛和实际业务中的建模有类似挑战,但有一点重要不同:实际业务建模必须要逐步引入更多变量,而竞赛中变量已经给定。
一般来说,这些竞赛的流程可以供我们实际开发时参考,其主要包括以下的几个步骤:
- 数据清理和 EDA
- 半自动的变量构建 + 手动构建
- 一类模型主要提高准确率,另一些模型做集成备选
- 传统来说主要用于提高准确率的是靠集成树的方法
- 近年来神经网络为基础的建模越来越多
- 可以结合集成学习
- 被集成的模型必须有一定准确性
- 被集成的模型必须有一定的多样性
关于新的流程,有以下几点说明
- 前三个环节经常需要反复进行
- 基本原则:尽可能利用算力和时间
- 不同人对于 EDA 重要性说法不同,个人建议初学者以实验为主
- 非常重要的原则:结合全局和局部信息
总结
本篇博客总结了结构化数据挖掘的概述,并通过数据挖掘竞赛的流程展示了其中需要注意的地方,希望对您有帮助。