5种常用的相关分析方法

相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素。并对业务的发展进行预测。本篇文章将介绍5种常用的分析方法。在开始介绍相关分析之前,需要特别说明的是相关关系不等于因果关系。

54b9822f9402b0.92166338

相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。下面我们以一组广告的成本数据和曝光量数据对每一种相关分析方法进行介绍。

以下是每日广告曝光量和费用成本的数据,每一行代表一天中的花费和获得的广告曝光数量。凭经验判断,这两组数据间应该存在联系,但仅通过这两组数据我们无法证明这种关系真实存在,也无法对这种关系的强度进行度量。因此我们希望通过相关分析来找出这两组数据之间的关系,并对这种关系进度度量。

原始数据

1,图表相关分析(折线图及散点图)

第一种相关分析方法是将数据进行可视化处理,简单的说就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。对于有明显时间维度的数据,我们选择使用折线图。

 

为了更清晰的对比这两组数据的变化和趋势,我们使用双坐标轴折线图,其中主坐标轴用来绘制广告曝光量数据,次坐标轴用来绘制费用成本的数据。通过折线图可以发现,费用成本和广告曝光量两组数据的变化和趋势大致相同,从整体的大趋势来看,费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看,两组数据的短期趋势的变化也基本一致。

折线图

经过以上这些对比,我们可以说广告曝光量和费用成本之间有一些相关关系,但这种方法在整个分析过程和解释上过于复杂,如果换成复杂一点的数据或者相关度较低的数据就会出现很多问题。

比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前,我们将费用成本标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。下面是一张根据每一天中广告曝光量和费用成本数据绘制的散点图,X轴是自变量费用成本数据,Y轴是因变量广告曝光量数据。从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当费用成本的增加后,广告曝光量也随之增加。

散点图

折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。并且当数据超过两组时也无法完成各组数据间的相关分析。若要通过具体数字来度量两组或两组以上数据间的相关关系,需要使用第二种方法:协方差。

2,协方差及协方差矩阵

第二种相关分析方法是计算协方差。协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。以下是协方差的计算公式:

协方差公式

下面是广告曝光量和费用成本间协方差的计算过程和结果,经过计算,我们得到了一个很大的正值,因此可以说明两组数据间是正相关的。广告曝光量随着费用成本的增长而增长。在实际工作中不需要按下面的方法来计算,可以通过Excel中COVAR()函数直接获得两组数据的协方差值。

协方差数据

协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。下面是三组数据x,y,z,的协方差矩阵计算公式。

协方差矩阵公式

协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。,

3,相关系数

第三个相关分析方法是相关系数。相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。以下是相关系数的计算公式。

相关系数公式

其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。

Sxy样本协方差计算公式:

Sxy公式

Sx样本标准差计算公式:

Sx公式

Sy样本标准差计算公式:

Sy公式

下面是计算相关系数的过程,在表中我们分别计算了x,y变量的协方差以及各自的标准差,并求得相关系数值为0.93。0.93大于0说明两个变量间正相关,同时0.93非常接近于1,说明两个变量间高度相关。

相关系数数据

在实际工作中,不需要上面这么复杂的计算过程,在Excel的数据分析模块中选择相关系数功能,设置好x,y变量后可以自动求得相关系数的值。在下面的结果中可以看到,广告曝光量和费用成本的相关系数与我们手动求的结果一致。

相关系数Excel

相关系数的优点是可以通过数字对变量的关系进行度量,并且带有方向性,1表示正相关,-1表示负相关,可以对变量关系的强弱进行度量,越靠近0相关性越弱。缺点是无法利用这种关系对数据进行预测,简单的说就是没有对变量间的关系进行提炼和固化,形成模型。要利用变量间的关系进行预测,需要使用到下一种相关分析方法,回归分析。,

4,一元回归及多元回归

第四种相关分析方法是回归分析。回归分析(regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前有两个准备工作,第一确定变量的数量。第二确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量,因此使用一元回归。根据经验广告曝光量是随着费用成本的变化而改变的,因此将费用成本设置为自变量x,广告曝光量设置为因变量y。

以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目标就是b0和b1的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

一元线性方程

这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。

b1公式

以下是通过最小二乘法计算b1值的具体计算过程和结果,经计算,b1的值为5.84。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出b0的值。

回归方程数据

以下是b0的计算公式,在已知b1和自变量与因变量均值的情况下,b0的值很容易计算。

一元回归b0

将自变量和因变量的均值以及斜率b1代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保留两位小数,取值5.84。

b0公式

在实际的工作中不需要进行如此繁琐的计算,Excel可以帮我们自动完成并给出结果。在Excel中使用数据分析中的回归功能,输入自变量和因变量的范围后可以自动获得b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异,因为前面用于计算的b1值只保留了两位小数。

这里还要单独说明下R Square的值0.87。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高。

回归方程Excel

将截距b0和斜率b1代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元,广告曝光量会增加379.84次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法,就是在Excel中对自变量和因变量生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示R平方值即可。

一元线性模型

以上介绍的是两个变量的一元回归方法,如果有两个以上的变量使用Excel中的回归分析,选中相应的自变量和因变量范围即可。下面是多元回归方程。

多元线性方程

5,信息熵及互信息

最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。

度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。

信息熵数据

对于信息熵和互信息具体的计算过程请参考我前面的文章《决策树分类和预测算法的原理及实现》,这里直接给出每个特征的互信息值以及排名结果。经过计算城市与购买状态的相关性最高,所在城市为北京的用户购买率较高。

互信息

到此为止5种相关分析方法都已介绍完,每种方法各有特点。其中图表方法最为直观,相关系数方法可以看到变量间两两的相关性,回归方程可以对相关关系进行提炼,并生成模型用于预测,互信息可以对文本类特征间的相关关系进行度量。

—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】

Read more: http://bluewhale.cc/2016-06-30/analysis-of-correlation.html#ixzz4byDVifsu

大数据分析一般用什么工具分析?

关于大数据分析的前端展示,使数据可视化,国内用的最多都是哪些技术?

你说的主要还是大数据的可视化方面,那么其实综合来看,主要分为一些特殊的使用场景。对于可视化分析和大数据平台,自己做过一些关于这方面 的产品调研和分析,固与各位分享下。


报表这一类的目前做得好的有ECharts和HighCharts两个,效果做的都不错。


1、日志管理工具Splunk(http://www.splunk.com/

面向使用的人群主要有:

Splunk的功能组件主要有Forwarder、Serch Head、Indexer三种,然后支持了查询搜索、仪表盘和报表(效果真不是吹的,很精致呀),另外还支持SaaS服务模式。其中,Splunk支持的数据源也是多种类型的,基本上还是可以满足客户的需求。

目前支持Hadoop1.x(MRv1)、Hadoop2.x(MRv2)、Hadoop2.x(Yarn)三个版本的Hadoop集群的日志数据源收集,在日志管理运维方面还是处于一个国际领先的地位,目前国内有部分的数据驱动型公司也正在采用Splunk的日志管理运维服务。

可视化部分效果也是很不错的

2、EverString(Home – EverString


everstring主要是通过大数据的预测分析建模为企业提供业务和客户推荐的SaaS服务,获取和积累了两个数据信息资源库,一个行业外部的资源库(公有SaaS收费形式),一个行业自己内部的资源库(私有),然后再通过机器学习和人工智能的方法对数据进行相应行业或是领域的建模,最后得到一个比较不错的结果,优化于人工可以得到的结果,而且Everstring也成为了初创大数据公司里面估值很高的公司。


3、国外的Tableau(http://www.tableau.com/


可视化界面还是做得不错的



可是对于价格还是按需掏腰包吧。


4、国内的大数据魔镜分析工具(魔镜—行业领先的大数据可视化分析平台 6.0

魔镜的大数据平台主要提供的还是数据清洗和ETL、Hadoop数据仓库以及一系列的数据分析服务,可提供的数据分析视图工具类型丰富:

目前国外还时候有很多从事大数据业务的公司,像协助美国CIA找到本拉登的Panlatir,可以预测未来的Recorded Future和,6sence,ETL方向的Etleap,CRM系统方向的Salesforce等,如果说到可视化工具,它应该是大数据处理流程里面的最后展现环节。


国内有个不错的链接,实属干货呀。

盘点:55个最实用大数据可视化分析工具(tech.it168.com/a2015/03


就写到这里吧,分析的不到位的地方,还请指出,谢谢。


补充

———————-

刚有人问,哪些是目前国内可以用得到的一些数据科学家分析的工具,正好公司有同事是这方面的专家,请教了下,如下:

1、SPSS:主要用于数据建模工作,功能稳定且强大,能够满足中小企业在业务模型建立过程中的需求。

2、BitDeli

BitDeli是今年11月份在旧金山成立的一家初创公司。它能衡量出任何使用Python脚本的应用程序的指标,联合创始人兼CEO Ville Tuulos告诉Derrick,脚本可以很简单,也可以很复杂——甚至未来可以延伸到机器学习。不过和“重量级选手”Hadoop相比,BitDeli自认为是一个轻量级的Ruby。

3. Continuuity

Continuuity前Yahoo首席云架构师Todd Papaioannou和Facebook HBase的工程师Jonathan Gray的心血结晶,Continuuity想让所有的公司都能像Yahoo、Facebook一样运营。该团队创建了一个大数据工具,它可以简化Hadoop以及HBase集群的复杂性,而且包含一系列开发套件,旨在帮助程序员开发大数据应用,该平台采用Hadoop技术,允许开发者在防火墙内外对大数据应用软件进行部署、扩展和管理。公司联合创始人兼首席执行官Todd Papaioannou表示,作为一家初创企业,Continuuity正在试图掀起下一波大数据应用软件的浪潮,公司所提供的工具能够大大提高处于开发状态的软件不同部分与阶段的扩展性。

4. Flurry

Flurry移动应用统计分析领域里的标杆,正因为在行业内独特的优势,它每年的营收高达一亿美元。Flurry拥有非常全面的功能,不仅仅只是帮助开发者构建移动应用,它还帮助开发者分析所有的数据,进而产生更大的效益。其实数据也支撑了该公司的广告网络,他们通过数据分析可以帮助开发者推送准确的广告到需要的用户面前。不过单纯从移动应用的数据统计功能来看,Flurry绝对是处于领先地位。其功能模块设置合理,分析维度全面,分析流程也易于理解。


————————————————-也就了解到这么多了。————————————————–

谢邀。


————————————————–谢邀,我又来了———————————————

在这里,不得不多说Tableau,实属大数据可视化分析魔力象限的领导者,废话不多说,直接上一个自己前段时间在团队内部做的分享:






还望大家多提提指导意见;

再次谢邀;

大家都回答的是工具产品,似乎都没有人讲讲R语言和Python,怒答。
——————————————-多图预警!
R-ggplot2
ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念。当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理。

技术相关


核心理念
1. 将数据,数据相关绘图,数据无关绘图分离

这点可以说是ggplot2最为吸引人的一点。众所周知,数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程。

ggplot2将数据,数据到图形要素的映射,以及和数据无关的图形要素绘制分离,有点类似java的MVC框架思想。这让ggplot2的使用者能清楚分明的感受到一张数据分析图真正的组成部分,有针对性的进行开发,调整。

2. 图层式的开发逻辑

在ggplot2中,图形的绘制是一个个图层添加上去的。举个例子来说,我们首先决定探索一下身高与体重之间的关系;然后画了一个简单的散点图;然后决定最好区分性别,图中点的色彩对应于不同的性别;然后决定最好区分地区,拆成东中西三幅小图;最后决定加入回归直线,直观地看出趋势。这是一个层层推进的结构过程,在每一个推进中,都有额外的信息被加入进来。在使用ggplot2的过程中,上述的每一步都是一个图层,并能够叠加到上一步并可视化展示出来。

3. 各种图形要素的自由组合

由于ggplot2的图层式开发逻辑,我们可以自由组合各种图形要素,充分自由发挥想象力

基本开发步骤

1. 初始化 – ggplot()

这一步需要设定的是图的x轴,y轴和”美学特征”。基本形式如下:

p <- ggplot(data = , aes(x = , y = ))

这一步里,设置x轴和设置y轴很好理解。那么”美学特征”又是什么呢?

举个例子来说,下面这张散点图里,x轴表示年龄,y轴表示身高,很好理解:

但这张图除了展示年龄和身高的关系,还展示出每个样本点的体重:颜色越深表示体重越大。因此体重信息和年龄身高一样,也需要绑定到一个具体的列。这一列就是散点图中的”美学特征”。

来看看R语言绘制代码:

ggplot(heightweight, aes(x=ageYear, y=heightIn, colour=weightLb))+geom_point()

其中的colour参数就是该图的”美学特征”。

再比如,下面这张柱状图中,x轴表示日期,y轴表示权重,很好理解:

但这张图中每个日期对应了两个不同的权重并采用两个柱状来对比,那么这个划分依据也是另一个“美学特征”。

再看看绘制代码:

ggplot(cabbage_exp, aes(x=Date, y=Weight, fill=Cultivar))+geom_bar(position=”dodge”, stat=”identity”)

其中的fill参数就是该图的”美学特征”。

综上所述,图中的每个样本点除了通过它的坐标位置,还可以以其他形式展示信息,比如大小,色深,分组等。而这些新形式需要绑定的列,便叫做”美学特征”。

“美学特征”的形式和x,y轴一样是以列的形式给出,且列中元素个数和x,y轴列必然相等。它的设置也和x,y轴一样在ggplot()函数的aes参数括号内进行。

2. 绘制图层 – geom_bar()/geom_line()等等

上一步的主要工作是为数据可视化配置好了数据,接下来便可根据业务的需要来绘制不同的图,如折线图/柱状图/散点图等等。具体的实现方法在后面的章节中会细致讲解,这里重点提一下绘图函数里的stat参数。这个参数是对冲突样本点做统计,该参数默认为identity,表示保留样本点原(y)值,还可以是sum,表示对出现在这点的(y)值进行求和等等。

3. 调整数据相关图形元素 – scale系列函数、某些专有函数

在ggplot2中,scale标尺机制专门负责完成数据到图像元素的映射。也许你会问,”美学特征”不是已经定义好了这个映射吗?然而事实是”美学特征”只是选定了映射前的数据,并没有说明具体映射到什么图形元素。

举个例子,假如某张表记录了不同种类水池的长,宽,深信息。现在需要绘制不同种类下水池长和宽关系的柱状图,那么初始化完成的是这个映射:

而scale函数完成的是这个映射:

显然a映射为了红色,b映射为了蓝色。

也许你还会问,我的代码不用scale,那么映射是如何完成的呢?答曰系统有默认映射的,就像绘图函数都有默认参数stat=identity这样。

4. 调整数据无关图形元素 – theme()、某些专有函数

这部分包括设置图片标题格式,文字字体这类和数据本身无关的图像元素。只需调用theme()函数或者某些专有函数(如annovate函数可为图片添加注释)便可实现。

一个图层绘制好后便可观察调整,然后开始下一个图层的制作,直到整幅图绘制完毕。

R语言可视化成品图


Python不是很在行,先放一放
——————————————————————————————
补充:
说到工具,顺带提一下FineBI商业智能解决方案|BI工具
FineBI是为大数据量提供数据处理、ETL、Dashboard报表展示、动态分析、报表管理的可视化分析工具。
优势是:

前端可视化

简单操作(小试牛刀):
1.新建分析
新建分析包括两种类型的分析:普通即时分析和实时报表。
普通即时分析:是指普通的分析模板,从cube中获取数据,进行数据分析;
实时报表:是指做出来的即时分析模板,可以对数据进行实时查看,保证数据的准确性

报表创建完成之后,页面进入数据分析设计界面,选择组件布局为自由布局,如下图:

添加组件

制作汇总表

制作图表

组件布局:自适应布局&自由布局
自适应布局,自动调节布局

自由布局,自由选择布局

以下摘自网络:


一、Excel

Excel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。

二、Google Chart API

Google Chart提供了一种非常完美的方式来可视化数据,提供了大量现成的图标类型,从简单的线图表到复杂的分层树地图等。它还内置了动画和用户交互控制。

三、D3

D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。

四、R

R语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软件,但也有用作矩阵计算。其分析速度可比美GNUOctave甚至商业软件MATLAB。

五、Visual.ly

如果你需要制作信息图而不仅仅是数据可视化,Visual.ly是最流行的一个选择。

六、Processing

Processing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。Processing可以在几乎所有平台上运行。

七、Leaflet

Leaflet是一个开源的JavaScript库,用来开发移动友好地交互地图。

八、Openlayers

Openlayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善。且学习曲线非常陡峭,但是对于特定的任务来说,Openlayers能够提供一些其他地图库都没有的特殊工具。

九、PolyMaps

PolyMaps是一个地图库,主要面向数据可视化用户。PolyMaps在地图风格化方面有独到之处,类似CSS样式表的选择器。

十、Charting Fonts

Charting Fonts是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。

十一、Gephi

Gephi是进行社会图谱数据可视化分析的工具,不但能处理大规模数据集并且Gephi是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。

十二、CartoDB

CartoDB是一个不可错过的网站,你可以用CartoDB很轻易就把表格数据和地图关联起来,这方面CartoDB是最优秀的选择。

十三、Weka

Weka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。

十四、NodeBox

NodeBox是OS X上创建二维图形和可视化的应用程序,你需要了解Python程序,NodeBox与Processing类似,但没有Processing的互动功能。nodebox.net/code/index.

十五、Kartograph

Kartograph不需要任何地图提供者像Google Maps,用来建立互动式地图,由两个libraries组成,从空间数据开放格式,利用向量投影的Python library以及post GIS,并将两者结合到SVG和JavaScript library,并把这些SVG资料转变成互动性地图。

十六、Modest Maps

Modest Maps是一个很小的地图库,在一些扩展库的配合下,例如Wax、Modest Maps立刻会变成一个强大的地图工具。

十七、Tangle

Tangle是一个用来探索,Play和可以立即查看文档更新的交互工具。

十八、Crossfilter

Crossfilter既是图表,又是互动图形用户界面的小程序,当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变

十九、Raphael

Raphael是创建图表和图形的JavaScript库,与其他库最大的不同是输出格式仅限SVG和VML.raphaeljs.com/

二十、jsDraw2DX

jsDraw2DX是一个标准的JavaScript库,用来创建任意类型的SVG交互式图形,可生成包括线、矩形、多边形、椭圆、弧线等图形。jsdraw2dx.jsfiction.com

二十一、Pizza Pie Charts

Pizza Pie Charts是个响应式饼图图表,基于Adobe Snap SVG框架,通过HTML标记和CSS来替代JavaScript对象,更容易集成各种先进的技术。

二十二、Fusion Charts Suit XT

Fusion Charts Suit XT是一款跨平台、跨浏览器的JavaScript图表组件,为你提供令人愉悦的JavaScript图表体验。它是最全面的图表解决方案,包含90+图表类型和众多交互功能,包括3D、各种仪表、工具提示、向下钻取、缩放和滚动等。它拥有完整的文档以及现成的演示,可以帮助你快速创建图表。

二十三、iCharts

iCharts提供可一个用于创建并呈现引人注目图表的托管解决方案。有许多不同种类的图表可供选择,每种类型都完全可定制,以适合网站的主题。iCharts有交互元素,可以从Google Doc、Excel表单和其他来源中获取数据。

二十四、Modest Maps

Modest Maps是一个轻量级、可扩展的、可定制的和免费的地图显示类库,这个类库能帮助开发人员在他们自己的项目里能够与地图进行交互。

二十五、Raw

Raw局域非常流行的D3.js库开发,支持很多图表类型,例如泡泡图、映射图、环图等。它可以使数据集在途、复制、粘贴、拖曳、删除于一体,并且允许我们定制化试图和层次。

二十六、Springy

Springy设计清凉并且简答。它提供了一个抽象的图形处理和计算的布局,支持Canvas、SVG、WebGL、HTML元素。

二十七、Bonsai

Bonsai使用SVG作为输出方式来生成图形和动画效果,拥有非常完整的图形处理API,可以使得你更加方便的处理图形效果。它还支持渐变和过滤器(灰度、模糊、不透明度)等效果。

二十八、Cube

Cube是一个开源的系统,用来可视化时间系列数据。它是基于MongoDB、NodeJS和D3.js开发。用户可以使用它为内部仪表板构建实时可视化的仪表板指标。

二十九、Gantti

Gantti是一个开源的PHP类,帮助用户即时生成Gantti图表。使用Gantti创建图表无需使用JavaScript,纯HTML-CSS3实现。图表默认输出非常漂亮,但用户可以自定义样式进行输出(SASS样式表)。

三十、Smoothie Charts

Smoothie Charts是一个十分小的动态流数据图表路。通过推送一个webSocket来显示实时数据流。Smoothie Charts只支持Chorme和Safari浏览器,并且不支持刻印文字或饼图,它很擅长显示流媒体数据。

三十一、Flot

Flot是一个优秀的线框图表库,支持所有支持canvas的浏览器(目前主流的浏览器如火狐、IE、Chrome等都支持)。

三十二、Tableau Public

Tableau Public是一款桌面可视化工具,用户可以创建自己的数据可视化,并将交互性数据可视化发布到网页上。

三十三、Many Eyes

Many Eyes是一个Web应用程序,用来创建、分享和讨论用户上传图形数据。

三十四、Anychart

Anychart是一个灵活的基于Flash/JavaScript(HTML5)的图表解决方案、跨浏览器、跨平台。除了图表功能外,它还有一款收费的交互式图表和仪表。

三十五、Dundas Chart

Dundas Chart处于行业领先地位的NET图表处理控件,于2009年被微软收购,并将图表产品的一部分功能集成到Visual Studio中。

三十六、TimeFlow

TimeFlow Analytical Timeline是为了暂时性资料的视觉化工具,现在有alpha版本因此有机会可以发现差错,提供以下不同的呈现方式:时间轴、日历、柱状图、表格等。

三十七、Protovis

Protovis是一个可视化JavaScript图表生成工具。

三十八、Choosel

Choosel是可扩展的模块化Google网络工具框架,可用来创建基于网络的整合了数据工作台和信息图表的可视化平台。

三十九、Zoho Reports

Zoho Reports支持丰富的功能帮助不同的用户解决各种个性化需求,支持SQL查询、类四暗自表格界面等。

四十、Quantum GIS(QDIS)

Quantum GIS(QDIS)是一个用户界面友好、开源代码的GIS客户端程序,支持数据的可视化、管理、编辑与分析和印刷地图的制作。

四十一、NodeXL

NodeXLDE主要功能是社交网络可视化。

四十二、OpenStreetMap

OpenStreetMap是一个世界地图,由像您一样的人们所构筑,可依据开放协议自由使用。

四十三、OpenHeatMap

OpenHeatMap简单易用,用户可以用它上传数据、创建地图、交流信息。它可以把数据(如Google Spreadsheet的表单)转化为交互式的地图应用,并在网上分享。

四十四、Circos

Circos最初主要用于基因组序列相关数据的可视化,目前已应用于多个领域,例如:影视作品中的人物关系分析,物流公司的订单来源和流向分析等,大多数关系型数据都可以尝试用Circos来可视化。

四十五、Impure

Impure是一个可视化编程语言,旨在收集、处理可视化信息。

四十六、Polymaps

Polymaps是一个基于矢量和tile创建动态、交互式的动态地图。

四十七、Rickshaw

Rickshaw是一个基于D3.JS来创建序交互式的时间序列图表库。

四十八、Sigma.js

Sigma.js是一个开源的轻量级库,用来显示交互式的静态和动态图表。

四十九、Timeline

Timeline即时间轴,用户通过这个工具可以一目了然的知道自己在何时做了什么。

五十、BirdEye

BirdEye是Decearative Visual Analytics,它属于一个群体专案,为了要提升设计和广泛的开源资料视觉化发展,并且为了Adobe Flex建视觉分析图库,这个动作以叙述性的资料库为主,让使用者能够建立多元资料视觉化界面来分析以及呈现资讯。

五十一、Arbor.Js

Arbor.Js提供有效率、以力导向的版面配置演算法,抽象画图表组织以及筛选更新的处理。

五十二、Highchart.js

Highchart.js是单纯由JavaScript所写的图表资料库,提供简单的方法来增加互动性图表来表达你的网站或网站应用程式。目前它能支援线图、样条函数图。

五十三、Paper.js

Paper.js是一个开源向量图表叙述架构,能够在HTML5 Canvas 运作,对于初学者来说它是很容易学习的,其中也有很多专业面向可以提供中阶及高阶使用者。

五十四、Visualize Free

Visualize Free是一个建立在高阶商业后台集游InetScoft开发的视觉化软体免费的视觉分析工具,可从多元变量资料筛选并看其趋势,或是利用简单地点及方法来切割资料或是小范围的资料。

五十五、GeoCommons

GeoCommons可以使用户构建富交互可视化应用来解决问题,即使他们没有任何传统地图使用经验。你可以将实社会化数据或者GeoCommons保存的超5万份开源数据在地图上可视化,创造带交互的可视化分析作品,并将作品嵌入网站、博客或分享到社交网络上。

传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可 视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。

首先Hadoop,没错就是这只小象。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。(版权不归我,免费交流学习之用,加我微信回复hadoop即可)

其次,HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。

再次,Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、 Admaster等等。

具体可以参考:六大工具帮你做好大数据分析

此外,也可以看看这篇文章:大数据分析到底需要多少种工具

关注大数据,欢迎加我微信:idacker 各种资源、资讯、行业动态应有尽有。

大数据只是一个新的概念,各个学科早就存在。我是运筹专业的,所以重点说运筹和优化。大数据的本质,就是一大堆数据,你无法直接用,因为数据量太大,所以你要从中抓取出你想要的数据。比如,放在高速路上的摄像头,拍超速的,一张照片,有用的信息只是一个牌照,所以你要把牌照这小块图片分割出来。 然后就是数学建模,图像分割有很多种模型,比较经典的是统计的一些模型,我也建过MIP的优化模型,说到底统计里面也是优化问题。Anyway,建完模型之后就是coding,然后计算了。MIP或者LP,我用Cplex。 然后一张大的图片,我可以给你分割出一块牌照,是你想要的,数据量大大减少。 你也可以把它叫做人工智能,因为它“智能”地把你想要的东西从一个大的东西里面分割出来交给你了。。 所以,大数据,人工智能,神经网络,深度学习,只是最近比较火的噱头而已,用的都是优化,统计,等等的模型,然后设计算法,然后计算。

数据分析——数据可视化:

日常工作中,好多人都面对一堆数据,但却不知道如何更直观展示效果,或者不知道用什么图表展示更好!花了一些时间整理了工作中常用的数据图表,希望对大家有用,不再是单纯给领导、用户展示干瘪的数据~  本文除了柱状图、条形图、折线图、饼图等常用图表之外,还有数据地图、瀑布图和散点图,旭日图,漏斗图等等。一起了解下不同图表的使用场景、优劣势!

1.柱状图

适用场景:适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较,用于显示一段时间内的数据变化或显示各项之间的比较情况。适用于枚举的数据,比如地域之间的关系,数据没有必然的连续性。

优势:柱状图利用柱子的高度,反映数据的差异,肉眼对高度差异很敏感。

劣势:柱状图的局限在于只适用中小规模的数据集。

  延伸图表:堆积柱状图、百分比堆积柱状图

不仅可以直观的看出每个系列的值,还能够反映出系列的总和,尤其是当需要看某一单位的综合以及各系列值的比重时,最适合。

  (堆积柱状图)

  (百分比堆积柱状图)

2.条形图

适用场景:显示各个项目之间的比较情况,和柱状图类似的作用。

优势:每个条都清晰表示数据,直观。

延伸图表:堆积条形图、百分比堆积条形图

(堆积条形图)

(百分比堆积条形图)

3.折线图

适用场景: 折线图适合二维的大数据集,还适合多个二维数据集的比较。一般用来表示趋势的变化,横轴一般为日期字段。

优势:容易反应出数据变化的趋势。

4.各种数据地图(一共有6种类型)

适用场景:适用于有空间位置的数据集,一般分成行政地图(气泡图、面积图)和GIS地图。行政地图一般有省份、城市数据就够了(比如福建-泉州);而GIS地图则需要经纬度数据,更细化到具体区域,只要有数据,可做区域、全国甚至全球的地图。

优劣势:特殊状况下使用,涉及行政区域。

(1)行政地图(面积图)

(2)行政地图(气泡图)

(3)GIS地图:点状图

(4)GIS地图:热力图(分别为北京区域和全国的热力图)

  (5)GIS地图:(北京某区域)散点图

  Ps:区域地图,通过放大镜可以放大或缩小区域哦~~

(6)GIS地图:地图+柱状/饼图/条形

  5.饼图(环图)

适用场景:显示各项的大小与各项总和的比例。适用简单的占比比例图,在不要求数据精细的情况适用。

优势:明确显示数据的比例情况,尤其合适渠道来源等场景。

劣势:不会具体的数值,只是整体的占比情况。

饼图、环图你喜欢那个呢,可以直接设置~

6.雷达图

适用场景:雷达图适用于多维数据(四维以上),一般是用来表示某个数据字段的综合情况,数据点一般6个左右,太多的话辨别起来有困难。

优势:主要用来了解公司各项数据指标的变动情形及其好坏趋向。

劣势:理解成本较高。


  7.漏斗图

适用场景:漏斗图适用于业务流程多的流程分析,显示各流程的转化率

优势:在网站分析中,通常用于转化率比较,它不仅能展示用户从进入网站到实现购买的最终转化率,还可以展示每个步骤的转化率,能够直观地发现和说明问题所在。

劣势:单一漏斗图无法评价网站某个关键流程中各步骤转化率的好坏。

  8.词云

适用场景: 显示词频,可以用来做一些用户画像、用户标签的工作。

优势:很酷炫、很直观的图表。劣势:使用场景单一,一般用来做词频。


  9.散点图

适用场景:显示若干数据系列中各数值之间的关系,类似XY轴,判断两变量之间是否存在某种关联。散点图适用于三维数据集,但其中只有两维数据是需要比较的。另外,散点图还可以看出极值的分布情况。

优势:对于处理值的分布和数据点的分簇区域(通过设置横纵项的辅助线),散点图都很理想。如果数据集中包含非常多的点,那么散点图便是最佳图表类型。

劣势:在点状图中显示多个序列看上去非常混乱。


延伸图表:气泡图(调整尺寸大小就成气泡图了)

10.面积图

适用场景:强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。

延伸图表:堆积面积图、百分比堆积面积图还可以显示部分与整体之间(或者几个数据变量之间)的关系。


  11.指标卡

适用场景:显示某个数据结果&同环比数据。

优势:适用场景很多,很直观告诉看图者数据的最终结果,一般是昨天、上周等,还可以看不同时间维度的同环比情况。

劣势:只是单一的数据展示,最多有同环比,但是不能对比其他数据。

12.计量图

适用场景:一般用来显示项目的完成进度。

优势:很直观展示项目的进度情况,类似于进度条。

劣势:表达效果很明确,数据场景比较单一。


  13.瀑布图

适用场景:采用绝对值与相对值结合的方式,适用于表达数个特定数值之间的数量变化关系,最终展示一个累计值。

优势:展示两个数据点之间的演变过程,还可以展示数据是如何累计的。


  14.桑基图

适用场景:一种特定类型的流程图,始末端的分支宽度总各相等,一个数据从始至终的流程很清晰,图中延伸的分支的宽度对应数据流量的大小流量随着时间推移变化的情况,通常应用于能源、材料成分、金融等数据的可视化分析。

15.旭日图

适用场景:旭日图可以表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况,旭日图能便于细分溯源分析数据,通过分层占比情况真正了解数据的具体构成。

优势:分层看数据很直观,逐层下钻看数据。


  16.双轴图

适用场景:柱状图+折线图的结合,适用情况很多,比如数量级相差很大的情况、数据同环比分析对比等情况都能适用。

优势:特别通用,属于不同图表的组合使用,比如柱状图+折线图的结合,图表很直观。

劣势:这个好像没什么劣势,个人感觉。

虽然看似就16种图表,其实一共有31种图表啦,可以认真数一数哈~

当然,当你分析数据的时候一定不会只用一种图表,尤其是数据报告中,每次都会用到多个图表,那各种图表的结合效果图也简单展示一下:

(销售业绩分析)

  (公司员工信息分析)下面是深色背景(星空蓝)下的图表效果:

所有的数据图表均来自有爱的BDP个人版哦,大家可以去试试~~~

5月17更新
大数据魔镜免费云分析平台全新上线。欢迎大家登陆体验魔镜—行业领先的大数据可视化分析平台 6.0

多图文预警!!!!!!!!!

下面主要介绍一下数据分析部分

1. 数据区
1.1 维度
魔镜将包含定性、分类信息的任何字段都视为维度。例如,包括任何含有文本或日期值的字段。不过在复杂数据关系中,维度的实际定义稍微复杂一些。一个维度就是一个可以视为独立变量的字段。

举例来说,可以针对该维度的每个值来聚合一个度量。例如,您可能要计算每个“省份”的销售总额。在这种情况下,“省份”字段用作维度,因为您要聚合每个省份的销售额。“销售额”的值取决于“国家”,因此,“国家”是独立字段,而“销售额”是依赖字段。同样也可以对视为维度的数字字段计算这种聚合。例如,您可能需要计算向客户提供的每个“利润率”的销售总额。在这种情况下,“利润率”字段用作独立字段,而“销售额”字段是依赖字段,即使这两个字段都是数字字段也是如此。您可通过先将“利润率”度量转换为维度将数字字段用作独立字段。

1.2度量
魔镜将包含数字、定量信息的任何字段视为度量。不过,在关系数据源中,度量的实际定义稍微复杂一些。一个度量就是一个依赖变量形式的字段;也就是说,它的值是一个或多个维度的函数。

这意味着度量是工作表中其他维度的函数。例如,您可能要计算每个“省份”的销售总

额。在这种情况下,“销售额”字段用作度量,因为您要聚合各省份的字段。

1.3度量转换为维度
默认情况下,魔镜将包含数字的所有关系字段视为度量。不过,您可能会决定将其中某些字段作为维度。例如,在魔镜中,默认情况下可能会将包含年龄的字段分类为度量,因为它包含数字数据。不过,如果您要查看每个年龄的人数分布,就可以将“年龄”字段转换为维度。

单击该字段并将其从数据区的度量区域拖放到维度区域中。

1.4 维度转换为度量
在魔镜中将定性的、分类信息视为维度,如将维度转换为度量,会将离散的维度信息进行计数,可自定义选择计数与计数(不同)。


2. 数据分析
2.1 快速进入分析台
点击导航——数据分析,进入数据可视化分析台;

点击仪表盘——新建图表,亦可进入数据可视化分析台;


2.2上卷下钻
上卷和下钻是导航分层结构的最有用方法之一。例如,如果您在检查各省的销售总额,则可下钻查看某省下各个城市的销售额情况。

在大数据魔镜中有两种方式可以进行创建分层结构。

将一个维度拖入另一个维度上,将自动创建分层结构,弹窗编辑分层结构名称。如图所示,将“省级”拖入“市级”,自动跳出弹窗编辑分层结构名称,点击确认。

1) 通过单击分析台上的维度,右拉创建分层结构,弹窗编辑分层结构,将相关维度拖入相关分层结构中。

将“市级”拖入分层结构中,如图:

举例来说,将“省级”拖入列,将“销售价格”拖入行,选择“饼图”,如图:

生成了各省销售价格的饼图,右击某个省,选择“下钻”,可以查看江苏省个城市的销售价格。

反之,将“市级”拖入列,将销售价格拖入行,生成饼图,右击某个城市选择“上卷”

就可以查看各省的销售价格,如下图,也可以再次右击选择“下钻”

2.3 探索功能在大数据时代,混乱的、无结构的、多媒体的海量数据,数据分析的探索功能可以成为一个有效的工具。数据分析的探索功能可以发现变量之间的相关性以及引导出新的假设,发现数据潜在的价值。

例如,我们分析某个区域的房产销售价格,同时可以探索其他新的字段,探索数据更深层次的价值。在大数据魔镜数据分析台中,将“省级”拖入列,将“销售价格”拖入“列”,可以看到各省的销售价格对比图

此时,我们可以探索一下其他新的内容,选择江苏省,右击选择“探索”,可以看到弹出了新的相关字段。

我们可以选择点击“市级”,探索一下江苏省各市的销售价格。

还可以继续探索南京每个时期的销售价格,从而作出有利于市场的决策。

2.4 参考线运用参考线是为了让图表更加清晰易读,形成对比。

大数据魔镜的参考线设置包括添加参考线、编辑参考线和移除参考线

1)添加参考线

将“省级”拖入列,将“销售价格”拖入行,生成线图,可以设置一条参考线,可以更清晰的看见各省之间销售价格的差距,点击“销售价格”右拉的“分析”,选择“参考线”

2)编辑参考线,点击确定生成参考线

3)范围设置

范围设置包含“整个表”“每组”“每单元格”

作用于“整个表”

4)线设置

5)移除参考线

右击参考线,出现右击菜单,点击“移除”,则将参考线移除

2.5 趋势线趋势线是用于预测数据趋势的计算线。

大数据魔镜中的趋势线包含显示趋势线、编辑趋势线、移除趋势线。

2.5.1 添加趋势线

将“销售日期”拖入列,将“销售价格”拖入行,生成线图,可以设置一条趋势线,可以更清晰的看见销售价格的走势图,点击“销售价格”右拉的“分析”,选择“趋势线”

2.1 趋势线趋势线是用于预测数据趋势的计算线。

大数据魔镜中的趋势线包含显示趋势线、编辑趋势线、移除趋势线。

2.5.2 添加趋势线

将“销售日期”拖入列,将“销售价格”拖入行,生成线图,可以设置一条趋势线,可以更清晰的看见销售价格的走势图,点击“销售价格”右拉的“分析”,选择“趋势线”

2.5.3 移除趋势线

右击趋势线,出现右击菜单,点击“移除”,则将趋势线移除

2.6 计算字段创建计算字段即通过自定义计算形成新的字段,形成的新的字段在维度、度量列表呈现,新的计算字段可进行删除和编辑操作。

在维度或者度量右拉菜单中选择“创建计算字段”

编辑“计算字段”界面

在弹出窗口输入新字段名称,并输入公式表达式及新字段名称,比如“平均销售价格”,输入公式表达式,在函数列双击选择想要的函数,比如“AVG”,再双击字段名列任一字段,比如“销售价格”。

点击确认,保存完成后,在字段列表中会显示出新增的字段。

计算字段公式说明如下。

数字公式

字符串公式

日期公式

聚合公式

2.7参数字段
参数类似于维度集,可以切换不同的维度,通过创建参数字段,当在“行、列、标记、筛选器”中时,可以快速切换当前参数中维度赋值。

点击维度中右拉菜单,选择点击“创建参数字段”。

弹出【编辑参数】框如图:

将当前展开的业务分组内的维度拖入“编辑参数”框内,框内字段可以进行自由排序。除了分层结构名不能拖入,其他维度都可以。

确认保存后,生成新的参数字段“参数1”。

将参数1拖入“行、列、标记或者筛选器”时,视图区会自动出现字段选择单值下拉列表。参数字段默认选中的维度为排序第一的维度,如下图,就可以随意切换查看各区域、各省和各市的销售价格。

2.8数据联想对某一字段进行数据联想,在数据区创建个新的联想字段,参与绘图。

将鼠标移至“数据联想”产生联想的临时对象。

联想的字段可添加至左侧列表,可参与绘图。

2.9聚合/取消聚合聚合度量虽然魔镜对于每个度量默认是汇总聚合,但对于每个置于功能区的度量,可分配一个不同的聚合。例如,可对“销售额”进行汇总聚合,对“利润”进行最大值聚合,对“折扣”进行平均值聚合。

通过选择“度量”菜单项,可以更改工作表中所有度量的聚合状态。

聚合维度魔镜可使用“计数”或“计数(不同)”将维度聚合为度量。当聚合维度时,将创建一个新的临时度量列,使维度看起来是一个度量。

注:MicrosoftAccess、MicrosoftExcel和文本文件数据源不支持“计 数(不同)”。如果您连接到这些数据源类型的其中一种,“计数(不同)”聚合将不可用。)

取消聚合当所有度量取消聚合后,视图中每一行都会出现一个标记。所有度量取消聚合后,无法在视图区操作“只保留”、“排除”数据。

1. 示例——销售分析散点图与取消/聚合

现有超市销售数据一份,先将一个度量放置在功能区上,将另一个度量放置在列”功能区上,则表示想要比较两个数值。通常在这种情况下,魔镜会选择散点图作为推荐可视化形式。初始视图可能让人失望 — 只有一个标记,显示两个度量的所有值的汇总。

有多种方式可生成这样一个散点图:您可以使用维度添加【描述】;可以向“行”和“列”功能区添加额外的度量或维度,以便在视图中创建多个单标记散点图。当然您也可以取消聚合,在视图中标记每一行数据。

将“销售额”度量放在“ 列”功能区上。

将“利润”度量放在“ 行”功能区上。

2. 度量自动聚合为汇总,销售额(汇总)在字段名称中显示。描述信息中显示的值是数据源中每个行的销售额和利润总和。

维度添加到【描述】,操作如下:

将“类别”维度拖到“标记”区的【颜色】上。

这会将数据分隔成三种标记—每个维度成员一个标记—然后使用颜色对标记进行区别标记。

将“省份”维度拖到“标记”区的【描述】上。

现在视图中的标记数量等于数据源中不同的省份数乘以类别数。

尽管显示更多标记,度量仍然是聚合的。因此,无论数据源中是只存在一个“省份为江苏、类别为办公用品“的行还是 100个这样的行,结果始终都是一个标记。

此过程可能会按您认为有用的方向形成视图,或者您可能更愿意转向不同的方向,例如,通过向视图中添加维度,或者通过引入趋势线或预测。

3. 向“行”和“列”功能区添加更多字段

将“省份”维度拖到“ 列”功能区。

将“细分”维度拖到“ 行”功能区。

现在,您有了一个可提供省份和客户细分市场的销售额与利润概况的视图。将光标悬停于视图中的标记上以查看各个细分市场的工具提示数据。

4. 取消聚合

另一种修改您原来的单标记散点图以显示更多标记的方法是取消聚合。

选择“取消聚合”。

现在您看到许多标记 — 原始数据源中的每一行分别有一个标记。

当您取消聚合时,查看的将不再是数据源中各行值的平均值或总和。相反,视图会为

数据源中的每一行显示一个标记。取消聚合数据是查看数据的整个表面区域的一种方法。

这是了解数据形状和识别离群点的快捷方式。这种情况下,取消聚合将显示,对于数据中的许多行,销售收入和利润之间存在一致的关系。

2.10 日期维度的连续与离散
日期类型维度除有离散属性外,还具有连续属性。在可视化展示方面很呈现不同的结果。如果,3日的数据是缺失的,在日期维度连续的状态下,3日是存在于轴上的,但在离散的状态下,3日标题是不存在于轴上的。

连续如下:

2.11 快速表计算
魔镜新版本快速表计算目前包括同比、环比。同比、环比的度量计算是相对日期维度而存在的。

同比一般情况下是今年第n月与去年第n月比。使用同比主要是为了消除季节变动的影响,用以说明本统计周期数据与去年同期数据相比的变化量。例如:本期2月比去年2月,本期6月比去年6月等。

环比一般情况下是今年第n月与今年第n-1月比。环比是本期统计数据与上期统计数据比较,用以说明本统计周期数据与前一统计周期数据相比的变化量。例如,本期2月比今年1月,本期6月比今年5月等。

同比/环比计算方法:

同比=(本统计周期数据 – 去年同期数据)/去年同期数据 × 100%。

环比=(本统计周期数据-上统计周期数据)/上统计周期数据 × 100%。

同比/环比使用方法:

当维度栏中放置了日期字段时,系统会默认提供可选的同比/环比类型。 当维度栏中没有放置日期字段时,同比/环比会置灰。

2.12 数据类型
数据源中的所有字段都具有一种数据类型。数据类型反映了该字段中存储的信息的种

类,例如整数 (150)、日期 (2015/321) 和字符串“Sophilin”。字段的数据类型在“数据”窗格中由以下所示图标之一来标识。

3. 图表组件
3.1 视图的组件不管哪类可视化图形都是行和列的集合,由以下组件组成:轴、区、单元格和字段标签和图例。

图例

3.2 标记标记区分为颜色、大小、标签、描述,通过对标记区的设置在图形中显示更多的信息。

颜色:

颜色标记不同的值,不同的颜色标记不同的维度值,颜色的深浅标识度量的大小,颜色标记除放射树状图外其他图形只能拖入1个维度,再拖入颜色,替换之前的字段

将维度拖入颜色,对颜色进行编辑,默认20个颜色循环使用,可进行自定义切换色方案

将维度“区域”拖入“颜色”,可以看到不同的颜色标记不同的区域

将度量“卧室数量”拖入“颜色”,可以看到颜色的深浅标记数量的大小;

大小:

调整整体的大小,自动适配美观显示。线图,调整线条的粗细,柱图,调整柱形的大小,形状,调整形状的大小,维度,按相关维度进行聚合,并且大小标识不同的维度值,度量,按相关度量进行聚合,并且按此度量进行大小标识柱图。

将度量“卧室数量”拖入“大小”,不同粗细的柱形标识不同的度量值

标签:

将维度拖入“标签”显示维度值,将度量拖入“标签”显示度量值,“标签”内只能显示一个字段,度量或维度,显示度量值或维度值,根据图形的不同选择性显示相关度量的度量名。在柱形图中,标签显示在柱形中

描述:

即详细信息,鼠标悬停时显示的详细信息,将“省级”拖入“描述”,可以看到各区域各省更详细的信息。

3.3 筛选器通过设置筛选器用来缩小显示在视图中的数据范围。通过选择特定维度成员或特定度量值范围,可以定义筛选器。将需要筛选的字段以拖动的方式,从左侧边栏的字段列表拖动到页面中间的筛选器中,点击右拉菜单,就可以进行筛选了。

勾选“东北”“中南”“华东”

生成筛选后的图表

将日期字段拖入“筛选器”,有“日期范围”“开始日期”“结束日期”可以设定。

维度筛选器

值选择器

值选择器—可使用“值”下拉列表来选择值的选择方法。

1) 从列表中选择—从值的列表中进行选择 需要使用数据库查询来获取值 。

2) 自定义值列表—在文本框中键入明确的维度成员名称以定义筛选器,而无需查询数据库。当您要使用大型数据源并且查询速度较慢时,请使用此选项。如果您知道相关的维度成员,则可以在文本框中键入这些成员,或者从其他应用程序复制并粘贴这些成员。请确保每个成员在文本框中各占一行。

3) 使用全部—选择数据源中的所有成员。有时,您需要定义基于所有数据的条件或限制筛选器,即使数据随时间发生变化也是如此。“使用全部”选项始终会包含数据库中的每个成员以作为条件或限制的输入,而不是从筛选器中选择要包含或排除的特定成员。

4) 排除模式—默认情况下,将包含定义筛选器时已选择的成员,并排除已取消选择的成员。但有时,定义不需要的值比定义需要显示的所有值更加容易。择对话框右上角的“排除”选项可从筛选器中排除而不是包含所做的选择。

5) 包含—返回在字符串中的任何位置包含该匹配值的所有成员。

6) 开头为—返回在字符串开头具有匹配值的成员。

7) 结尾—返回在字符串结尾具有该匹配值的成员。

8) 精确匹配—返回仅包含匹配值且没有任何其他内容的成员。

度量筛选器

1) 值范围—指定要包含在视图中的范围的最小值和最大值。所指定的值将

2) 包含在该范围中。

3) 至少—包含大于等于指定最小值的所有值。在因数据经常改变而无法指

4) 定上限时,这种筛选器十分有用。

5) 至多—包含小于等于指定最大值的所有值。在因数据经常变化而无法指

6) 定下限时,这种筛选器十分有用。

7) 特殊—这种特殊筛选器可帮助您对 Null值进行筛选。仅包含“Null值”、

8) “非 Null值”或“ 所有值”。

3.4 行列转置行列转置,点击转置按钮,交换“行”和“列”上的字段

点击转置按钮后

“行”与“列”上的字段已经交换。

3.5 放大镜点击“放大镜”图标,即可将当前可视化图最大化显示。

3.6 设置数值格式l 设置数值格式是设置度量在可视化图形效果的显示样式。

l 默认:默认状态显示千字符,保留3位小数;

l 数字(标准):显示千字符,显示2位小数,负值显示:-1234;

l 数字(自定义):①小数位数,默认2位;②负值显示,默认状态-1234;③单位:K、M、B;默认无单位;④前缀/后缀,默认无前后缀;⑤千字符 ,默认勾选千字符 ;

l 货币(标准):默认货币符号人民币,显示人民币单位;

l 货币(自定义):①小数位数;默认2位;②负值显示,默认状态-1234;③单位:K、M、B,默认无单位;④前缀/后缀,默认前缀为¥,无后缀;⑤千字符 ,默认勾选千字符

l 百分比:小数位数 ,默认保留2位小数;

l 设置数值格式是设置度量在可视化图形效果的显示样式。

l 默认:默认状态显示千字符,保留3位小数;

数字(标准):显示千字符,显示2位小数,负值显示:-1234;

l 数字(自定义):①小数位数,默认2位;②负值显示,默认状态-1234;③单位:K、M、B;默认无单位;④前缀/后缀,默认无前后缀;⑤千字符 ,默认勾选千字符 ;

货币(标准):默认货币符号人民币,显示人民币单位;


l 货币(自定义):①小数位数;默认2位;②负值显示,默认状态-1234;③单位:K、M、B,默认无单位;④前缀/后缀,默认前缀为¥,无后缀;⑤千字符 ,默认勾选千字符

l 百分比:小数位数 ,默认保留2位小数

以上6种状态不冲突,都是独立的,选择其中一种覆盖另一种。

4. 可视化图表组件4.1. 列表
列表是以表格的形式展示数据的载体。大数据魔镜列表分为列表、突出显示表、压力表。突出显示表与压力表可根据业务需要,增加自定义设置,使得信息更加详细、明显。通过突出显示表,不仅可以迅速发现多组数据在某个维度上的关键点,而且可以立即知道该关键点的值。

列表的三种图形效果见图。

1) 列表

列表包含行表头和列表头,是通用的数据分析图表。通常通过在“ 行”功能区上放置一个维度并在“ 列”功能区上放置另一个维度来创建列表,又称交叉表或数据透视表 。然后您通过将一个或多个度量拖到标记区的【颜色】、【大小】、【标签】、【描述】来完成视图。

拖入“区域”到行功能区;

拖入“类别”到列功能区;

拖入度量“销售额”、“利润”到标记区,;

切换列表图;

2) 突出显示表

突出显示表中,颜色的深浅标识度量的大小。

拖入“区域”到行功能区;

拖入“类别”到列功能区;

拖入度量“销售额”、“利润”到标记区,;

切换突出显示表;

如上图,颜色深浅标识的是销售额的度量值,标签显示的是折扣值的多少。

3) 压力表

压力表,通过图形的大小标识度量的大小。

4.2. 线图线图是最常用的统计图表之一。线性图可以将独立的数据点连接起来,通过线形图,人们可以在大量连续的点中发现数据变化的趋势,线图常用来展示数据随时间的变化趋势。

大数据魔镜线图类型最多支持1个维度1个度量。

连接到数据源“示例-超市.xls”后,进入可视化数据分析台。

1) 拖拽如“订单日期”到列,“销售额”到行;

2) 选择可视化图形效果—线图,即可形成线形趋势图;

不同月份销售额趋势如图

查看不同地区各时间段销售额趋势情况,将地区拖拽至【颜色】,形成下图。

4.3. 面积图面积图又称区域图,强调数据随着维度而变化的程度,也可用于引起人们对总值趋势的注意。导入数据源,拖拽相关维度,点击右侧的可视化图库—面积图,形成面积图。

4.4. 柱状图、条形图柱状图与条形图是常用图表之一。柱状图可以表现数据的对比情况,展现整体趋势。条形图可以快速地对比各信息值的高低,尤其是当数据分为几个类别时,使用条形图会有效,很容易发现各项目数据间的比较情况。魔镜柱状图分为标准柱形图、分组柱状图、堆栈柱状图。

柱状图可通过点击

进行转置,转置为水平,即转换为条形图;分组柱状图、堆栈柱形图可通过点击

两个图标进行切换;标准柱形图,支持多维度多度量。多维度情况自动维度分组,多度量分区显示。多用于展示多维度多度量关系情况。

将“细分“、“类别”两个维度均拖入列,

将“销售额”、“利润”两个度量均拖入到行,形成如下图标准柱形图。

堆积柱状图显示单个项目与总体的关系,并跨类别比较每个值占总体的百分比。堆积柱状图使用二维垂直堆积矩形显示值。当有多个数据系列并且希望强调总数值时,可以使用堆积柱状图。

l 将“地区”维度拖入至标记区【颜色】,形成如下图标准柱形图。

大数据魔镜分组柱形图有两种形态,维度分组柱形图与度量分组柱形图。

维度分组柱形图切换规则是至少满足2个维度1个度量,具体操作如:

l 拖入“类别”、“细分”两个维度到列,“销售额”度量到行;

l 点击右侧图库—分组柱形图进行切换;生成如图维度分组柱形图;

建模区,“细分”“类别”维度在列,“类别”维度在【颜色】,不同颜色标识了不同类别。

l 在此图形基础上,拖入“数量“度量到行,再次点击图库—分组柱形图。

建模区标记区生成”度量值“,所有相关度量默认用颜色标识,这就能看出不同细分下不同类别销售额与利润的趋势对比。

4.5. 散点图散点图通常是用在需要分析不同字段间是否存在某种关系的时候,例如,分析各类产品的销售额和利润情况。通过散点图,可以有效地发现数据的某个趋势、集中度及其中的异常值,根据这些发现,可以帮助我们确定下一步应重点分析哪方面的数据及情况。

如图来分析各地区销售额、利润及折扣情况,可看出异常值和整体的趋势销售额、折扣分别为X、Y轴定位,可根据业务需求,用标记大小标识折扣值。

此图中,不同子类别用不同的颜色标识,不同的折扣情况圆圈的大小标识。从图中可以看出子类别—椅子的折扣较大。

4.6. 树状图树状图是数据树的图形表示形式,表现维度层级关系。

魔镜现有树状图样式:

4.7.地图
日常分析中,地图是经常要用到的图形效果。特别是表现各地域分布情况,地图的展现效果要比其他的图形效果形象、直观。

地图自定义选项有填充颜色、标记类型、标记颜色、显示标签、描述信息五种:

l 当度量选择了“填充颜色”,填充颜色的深浅表示度量值的大小;

l 当度量选择了“标记类型”默认标记的大小识别度量值的大小,可自定义标记的颜色和整体大小;

l 当地图中有度量选择了标记大小识别,其他的度量可选择“标记颜色”,标记颜色的深浅表示度量值的大小;

l 选择了“显示标签”地图中会显示相应度量值;

l “描述信息“所有度量信息默认描述信息显示,鼠标移过显示度量值;

l 目前的标记类型:圆形、方形、菱形、三角形、条形;

支持省、市下钻,点中某省,显示此省明细区划数据情况,可回退;

4.8.云标签

暂时就这么多了

下面是原文
———————————————-分割线—————————————————————
国内的推荐大数据魔镜www.moojnn.com,免费使用,有云版和下载版。大数据魔镜整合了市面上的可视化效果,更有上卷下钻,数据预测,聚类分析,相关性分析,图表联动,数据联想,地图,组合图等很多功能。
一、支持多种数据源
二、操作简单,拖拽式探索分析

二、最大可视化效果库
有超过500 多种可视化效果,丰富的组件库中包括示意图、筛选器、地图和标签云图等,从而使用户能够创建简单的仪表板或者绚丽的商业信息图表和可视化效果。

三、四屏合一
拥有国内领先的大屏幕可视化解决方案,完美兼容LCD 屏、液晶屏、PAD 屏、智能手机屏幕四屏支持。

四、数据权限
支持企业/团队间的数据分析协作,并针对数据加设权限,数据分析项目的所有者可以对团队成员进行管理员、编辑者、观察者的权限设置,同时分配数据资源的调配权限,给团队提供更私密协作的空间和管理运作方式。
五、自动建模和分析挖掘
大数据魔镜率先将数据建模和数据分析的过程进行可视化,用户无需变形复杂的代码即可完成数据建模,同时丰富的分析算法,如聚类分析、关联分析、相关性分析、决策树、数据联想等,不需要写代码,只需简单拖拽操作就可以实现,简单操作的同时满足了用户的复杂分析需求。

六、更多功能
联动或有bug,正在优化(望体谅)


近期,我们正在全力研发更好用,更实用的分析功能,谢谢期待!

写的有点乱,大家多多包涵!!!

大数据分析涉及方方面面,可以说工具分类起来既有抓取类的,也有分析支持类的。有平台型的大家伙还有小而美的云端工具。
一般来说,谈工具还是从需求展开,谈案例说工具链比较合适。

这篇文章写的过程中,看了大量知乎中的大数据相关的文章,感觉知乎在这个版块下,还是稍有欠缺,缺乏整理归纳。希望这篇能给大家一些帮助。
(长文不断更新中)

1,wolframalpha:Computational Knowledge Engine
绝对是神器,上得了怪图卖萌,下得了强大的数学分析。简单的方程可以给你出轨迹图,导数图,还可以给你搞因式分解。基本堪称数学搜索引擎的google。商业分析上,各种价格还有强大的分析和展现,方便实时分析
Wolfram Alpha 是用哪些编程语言开发实现的? 参见

的答案。
Wolfram|Alpha 有哪些有趣的用途? 这个问题下

的回答非常好。
贴一个用WA看金价的图:

最后用 Wolfram Language 对于一个普通程序员有什么意义?

的吐槽,哈哈。
————————————————————————————————————————

2,tableau Tableau Software
离线的数据处理软件,内置大量案例和图表。图片呈现的方式非常直观,也非常容易让人看到简单的数字堆砌看不到的神奇关联,·做案例分析能得到非常多非常棒的启发。
比如下面这张,密集恐惧症警报:

非常有趣有没有!

除了需要下载,tableau的使用体验非常的好。

同类工具推荐在这里:如何将枯燥的大数据呈现为可视化的图和动画? – 信息技术(IT) – 知乎 这里

总结的很清楚。

因为知乎上tableau 板块下太杂乱,并不容易找到太多专业信息,我这里推荐这篇:国内外与信息可视化相关的专业博客、论坛、社区有哪些? – 互联网社区 – 知乎 到相关论坛上,跟着

的推荐去论坛里研究。

再推荐一篇

的:Tableau和QlikView的优点、缺点、区别? – 用户体验设计 – 知乎

方便对比认识一下吧。

——————————————————————————————————————————

 

3,Hadoop Welcome to Apache™ Hadoop®!

认准这只大象!

不过,hadoop已经是生态圈级的应用了,其强大自不用说,除了主页上的ui该被吐槽一下(嘿哈)。

hadoop方面,知乎上还是有不少好文章的:

与 Hadoop 对比,如何看待 Spark 技术?这个问题下

的回答都超级有价值,值得收藏。

为什么在中国搞不出 Spark 和 Hadoop 这种东西? 这个问题虽然过时,不过

的回答特别好。

用机器学习的方法来处理大数据,是直接学 Spark,还是重点学习 Hadoop,了解 Spark?

嗯,还是关于spark和hadoop,仍然推荐

的回答。

总之hadoop是生态圈级的产品,嗯,用这个来收尾:Hadoop 就业前景如何? – 互联网 – 知乎

 

3.5 Hpcc HPCC Systems

为什么是3.5,因为感觉是跟着hadoop来写一下的。

高性能集群计算(HPCC)能取代Hadoop吗?-CSDN.NET 这个问题之后有一些有趣的讨论。不挂一下不合适。

我得意见是,hpcc的主页比较好看。

——————————————————————————————————————————

 

估计上面的内容还需要更新,目前知乎上的文章看得还不够多,估计之后还会再更新一些,加一些工具加一些工具文章链接。

大工具好多,喘口气。

说个小而美的工具

4,造数 造数 – 最好用的云爬虫工具

 

造数源自我们今年年中的想法:如果用户只要爬取网页数据,那么能不能完全脱离代码基础来实现基本要求,个性化问题交给我们的团队来提供api等等的解决方案衍生而来。

让用户点一个想要的,其他的我们来帮助自动识别。多省事简单!

是否有智能爬虫,即不需要会写代码,只要定义后就可以开始爬虫了? – 造小数的回答 – 知乎

有免费的网络爬虫软件使用吗? – 造小数的回答 – 知乎
别的不多说,反正我们的首页好看就是了。

 

讲真,新网站既然挂出来,还是想让大家提意见提需求为主,欢迎随时私信我。

 

——————————————————————————————————————————

贴上我们的竞品:

5,Data Science Platform | RapidMiner rapid miner

在下对rapidminer 评价非常高,基本上目前是仰望的对象。功能强,首页也蛮好看的。我们可能易用性强一些,嗯。

如何让网站分析报告更有价值

从哪里入手撰写网站分析报告?报告中应该选择和使用哪些指标?如何让分析结果更有价值?这些都是在我们在撰写网站分析报告时经常遇到的问题。本篇文章分享一个创建网站分析报告的流程,通过四个步骤让分析报告变的更有价值。

一,明确分析目的,挖掘有价值的分析需求

网站的商业目的产生分析需求,而需求的价值则直接影响分析结果的价值。因此在开始撰写一份网站分析报告前,我们先要仔细思考并充分挖掘分析需求的价值。那么,什么样的分析需求是有价值的分析需求呢?我们先来看三类最常见的客户分析需求。

第一类客户有明确的分析需求,第二类客户有一个非常模糊的需求,第三类客户无法清晰的表达自己的分析需求。对于第二类和第三类客户在进行分析前,必须要明确他们的分析目的和需求。以及这些分析需求与最终商业目标间的关系。没有明确的目的就没有分析需求的产生,也没有分析的意义。在这种情况下,你也不会知道该如何下手去进行分析,更不要谈分析结果的价值。然而,并不是所有客户提的需求都会有价值。有时候客户向我们表达的信息其实并不是他内心中真正想要的。这时需要我们对客户需求背后的含义进行分析,获得真正有价值的需求。分析需求的价值直接决定了分析结果的价值。而有价值的需求多半都会和如何为客户带来收益相关。

二,确定分析方法和报告逻辑

在明确了有价值的客户需求后,我们进入第二步,选择需要使用的分析方法和报告中的逻辑。首先是选择分析方法。选择哪种分析方法多半是由客户的需求和问题决定的。对于初级客户,多半会以递进的方式提出三个问题:表现怎么样?为什么会这样?以及如何修改并提高?这三个问题几乎可以套用到任何场景下,比如广告投放分析,网站结构分析,页面质量分析,转化分析等等等等。对于这三个问题,通常情况下我们可以分别使用对比分析,细分分析和质量分析三种方法进行解答。

对于报告的逻辑,我们给出一个通用的分析逻辑,用户—影响—行动—转化—收益。这个逻辑可以和大部分广告投放方式和网站业务模式结合。 我们将分析逻辑中不同的阶段映射到用户,广告,网站等不同的部分中。并为每一部分中的目的和问题选择准确的衡量指标。

三,使用准确的指标进行度量

前面两部我们明确了分析目的,分析方法和报告的逻辑。下面开始为分析中不同的问题选择准确的指标进行衡量。指标的选择将直接影响到分析的结果。如果指标选择不当,那么分析结果也可能是错误的。选择指标的规则只有一个,就是能准确衡量所要分析的问题。这个说起来容易,但很多时候我们却经常用错,甚至有些时候为了报告的丰满,避免犯错,将很多无效的指标进行罗列。造成数据堆积。

下面是一个例子:我们使用哪个指标可以准确的衡量一个页面的质量?跳出率,退出率,浏览量,转化率这些指标都可以,但我们需要针对页面不同的功能和使用场景选择最准确的那个指标,而不是将所有相关的指标都放在上面。即使是针对同一个页面也是如此。

如何衡量页面质量?

跳出率:页面作为Landingpage时。 退出率:页面出现在任务过程中时。 浏览量:页面作为内容承载页时。 转化率:互动页面,且无其他下级页面时。

四,使用图表和业务语言展现分析结果

最后一步,也是最重要的一步,就是对前面所有的工作进行呈现,让不懂网站分析和数据的客户也能快速理解报告中的信息。这里有两部分,第一是选择合适的图表对分析结果进行展示。一图胜千言。第二是将网站分析的专业指标转换为客户可以理解的业务语言。并按业务场景为客户进行解读。我们必须承认,没有客户对指标感兴趣,大部分客户根本就不想知道Visitor和Visit的区别,他们通用也不会对你的数字感兴趣,他们需要的是通过数据和分析对业务问题的解读。因此我们不能只是简单的在分析报告中罗列数字和指标。还需要告诉客户指标在这类场景下说明的具体业务问题。

所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。