首页 » 开发 » 数据分析 ( 第 3 页 )

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-数据规范化

 

标准化(简单的数据分析报告可以不做) 消除量纲 后续聚类模型,比如一个数据是金额,它的单位是万 一个数据是身高,它的单位是米 这里面就需要对数据进行处理来消除两个数据单位不同导致的描述意义差距过大的情况。 拉平不同数值变量之间的相对距离 比如年收入20万 家庭 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-格式逻辑无用字段关联性验证

 

去除修改格式和内容错误的数据(重点) 1时间,日期,数值,全半角等显示 格式不一致 excel一种格式,数据库一种格式,这个一般是输入端的问题,所以需要进行下数据格式转化。比如excel文本格式的匹配和数值的匹配就是可以互相转化的 2内容中不该存在的字符 比如 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-缺失值处理流程(重点)

 

去除补全有缺失的数据(重点) 1计算变量缺失度 缺失度就是指数据里有百分之多少的数据是空值 这个百分比就是缺失度 还要考虑默认值的问题,比如年龄默认是0,那0也要作为缺失度来计算 缺失程度高和低如果没有太好的分配方案,建议就以50%为标界 2根据缺失度和变量重 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-外部数据其他获取方法

 

技术手段 需要技术人员帮助收集 爬虫 api接口 用户具体的浏览行为,搜索行为,但是可以获取到用户说了哪些话,发了哪些贴等 比如电影评分,电影名称,具体的评分内容,电影列表等。通过这个可以根据用户的评价来判断这个电影在社会上的讨论情况是正向还是负向。 也可以记 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-外部数据获取的一般方法

 

外部数据包含 一般手段:可由无技术背景人员自行收集 搜索引擎 几乎所有的公开数据都可以在搜索引擎搜到 行业市场数据,经济环境,行业发展情况,上下游发展情况,竞争者情况,可以通过搜索引擎作为入口,收集一切能够收集到的公开信息 行业垂直网站 排行榜之类的 免费报告 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-内部需要整理和收集的数据获取

 

有原始资料需整理 数据已经生产出来,但不是我们需要的形式,需要人工介入,对已有数据进行整理 业务系统 获取业务系统权限,通过报表形式下载或者写sql提取,也可以直接委托业务系统人员(一般业务系统是外包公司做的时候需要) 电子文档 手动或写程序批量处理文档中所需 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-内部可直接获取的数据

 

内部数据: 可直接获取数据 已经有其他人整理好 可以直接拿到原始数据或统计数据 不需要太多人工参与 包括: 数据仓库 单个数据存储,目的是支持分析性报告和决策 比如百度可以从知道,贴吧,搜索获取数据,然后放在一起 整合各个业务系统产生的数据,以分析视角进行整理 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:数据获取与处理-常用数据来源

 

常用数据来源 数据分为: 基本经营数据:内部数据 财务指标 企业收入,净利润,现金流,上市公司财报 人力资源指标 离职率 稳定性,招聘所需时间 重要岗位平均空缺市场 业务关键指标 比如销售的销售额,成单转化率,线索数量,欠款分析等 互联网主要关注流量,投放ro … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型时间序列和文本挖掘

 

时间序列:是指将同一指标的数据按照其发生的时间先后顺序排列而成的数列。主要是根据已有的历史数据对未来进行预测 与回归的主要区别是可以剔除周期的影响,大量金融量化模型会用到时间序列(股票k线图) 文本挖掘: word2vec:挖掘文本上下文之间的关系 doc2v … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型降维

 

数据的每一个特征,都是一个维度 大数据的特点之一就是高维,高维数据中包含了大量的冗余数据(比如身份证和性别数据)并且隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量 简单来说,就是我数据特征太多了,想找到主要的特征 主成分分析,因子分析 我 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型回归

 

回归 - 收敛(找到一条线,能够更多的描述点的一个算法,收敛的越好,算法质量越高) 回归主要是来预测后续变化的,是通过研究一组随机变量和另一组变量之间的关系的统计分析方法,又称多重回归分析,通常一组是因变量一组是自变量 因变量(dependent variab … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型分类

 

和聚类不同,分类是预先知道类别以及类别特征的情况下来进行分类的过程。 分类要求划分的类是已知的(图书分类法),二分类(是/否)也是分类的一种 案例: 我现在有一堆东西,我想分门别类放的有规律 我是知道如何分的(分类规则) 我知道类别之间的特点,但是规则太多了, … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型聚类

 

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程称为聚类 由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异 主要是根据对象的特征来进行相似和相异的定义 聚类所要求划分的类是未知的 因此我们有预先定义群 … 阅读全文

【课堂笔记】数据分析报告制作秘籍:搭建故事线-数据挖掘模型的作用

 

常用的数据挖掘模型包括:聚类,分类,回归,降维,时间序列,文本挖掘 他们的作用: 大部分数据分析报告使用(均值 分位数 同环比 变化趋势 透视/下钻等)即可解决 但有时候需要对已有数据做更深度的挖掘,这个时候就需要建模 比如: 数据库人群的划分:传统企业的划分 … 阅读全文