你好,游客 登录
背景:
阅读新闻

大数据处理之道(MATLAB 篇)

[日期:2014-12-17] 来源:CSDN博客  作者:瞭望天空 [字体: ]

一:起因

(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算

(2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ;

(3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,对现实的现象进行非常好的描述和刻画

(4)Python(数据清洗和处理) + MATLAB(模型分析) 或 c++/java/hadoop(数据清洗和处理) + MATLAB(模型分析

(5)先前的一篇博文可以参考  c++ fstream + string 处理大数据

二:MATLAB 学习

(1)伽马分布(gamfit)

[plain] view plaincopy
  1. clc 
  2. clear all 
  3. close all 
  4. dataall = load('G:\zyp_thanks\metro_test\1-07\529_2.csv'); 
  5. data = dataall(:,3);%指定列 
  6.  
  7. [y,x]=hist(data,6);%creates a histogram bar plot of data,sorts data into the number of bins specified by nbins 
  8. %return the categorical levels correponding to each count in N 
  9. subplot(2,2,1) 
  10. bar(x,y,'FaceColor','r','EdgeColor','w');box off 
  11.  
  12. cxd1=gamfit(data);% returns the maximum likehood estimates(MLEs) for the parameters of the gamma distribution given the data in vector data. 
  13. % 伽玛分布中的参数α,称为形状参数,β称为尺度参数。 
  14. a = cxd1(1); 
  15. b = cxd1(2); 
  16. cxd2=gamcdf(data,cxd1(1),cxd1(2));%return the gamma cdf(分 布函 数) at each of the values in x using the corresponding shape parameters a and scale parameter 
  17. %cxd2 = gampdf(data,cxd1(1),cxd1(2));%%return the gamma pdf(密 度函 数) at each of the values in x using the corresponding shape parameters a and scale parameter 
  18. H=kstest(data,[data,cxd2]); 
  19. subplot(2,2,2); 
  20. plot(data,cxd2); 


(2)MATALAB 下 .m 文件的命名

% 错误提示:

%Attempt to execute SCRIPT *** as a function    在运行MATLAB程序的时候,出现如题的报错。

% 原因:
% 在系统中,现有的.m文件有的与***函数重名,所以matlab编译器不知道在遇到***的时候到底该执行哪一个函数。
% 例如:我编写了一个.m文件,命名为:fft2.m.用于实现通过频域分析提取图像的纹理特征。
% 当命令执行到X=fft2(ImageM)这句话的时候,不知道fft2是指系统函数还是自定义的纹理特征提取函数。

% 解决:
% 把自定义的函数名改成其他名字。如上例中的fft2改为ffttexture.m?

(3)pdf 和 cdf函数的说明、

Probability density function(PDF) 概率密度函数; 

cumulative distribution function ; CDF 是累积分布函数

(4)正态分布(normpdf normcdf)

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
  1. clc 
  2. clear all 
  3. close all 
  4. dataall = load('G:\zyp_thanks\metro_test\1-07\529_2.csv'); 
  5. data = dataall(:,3);%指定列 
  6. [mu,sigma]=normfit(data);%estimate of the mean and standard deviation in data 
  7. [y,x]=hist(data,6);%creates a histogram bar plot of data,sorts data into the number of bins specified by nbins 
  8. %return the categorical levels correponding to each count in N 
  9. bar(x,y,'FaceColor','r','EdgeColor','w');box off 
  10. xlim([mu-3*sigma,mu+3*sigma]) % sets the axis limits in the current axes to the specified values 
  11. a2=axes; 
  12. % computes the pdf at each of the values in X using the normal distribution 
  13. % with mean and standard deviation sigma. 
  14. ezplot(@(x)normpdf(x,mu,sigma),[mu-3*sigma,mu+3*sigma]) 
  15. set(a2,'box','off','yaxislocation','right','color','none') 
  16. title '频数直方图与正态分布密度函数(拟合)' 


(5) quantile - quantile plot (Q-Q plot)

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
  1. clc 
  2. clear all 
  3. close all 
  4. dataall = load('G:\zyp_thanks\metro_test\1-07\529_2.csv'); 
  5. data = dataall(:,3);%指定列 
  6. qqplot(data); 
  7. % displays a quantile-quantile plot of the sample quantiles of X versus 
  8. % theoretical from a normal distribution. if the distribution of X is 
  9. % normal,the plot will be close to linear. 

原文链接:http://blog.csdn.net/u010700335/article/details/41915065





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款