内容正文:
5.4.2数据可视化表达的工具
处理重复值
处理缺失值
处理异常值
系统日志采集法
网络数据采集法(网络爬虫)
其他数据采集法
数据分析的步骤
《数据与计算》P118-122
1.特点:
主要关注统计模型的可视化
Seaborn基于且高度依赖于Matplotlib
Seaborn是matplotlib的强大的一个扩展。
2.例如:直方图
可以总结数据
也可以描绘数据的总体分布
一、Seaborn
1.特点:
可以实现交互式可视化
独立于Matplotlib
可以通过浏览器以数据驱动文档的风格呈现
2.绘图步骤
获取数据
构建画布figure()
添加图层,绘图line,circle,square,scatter,multiline等;
自定义视觉属性:参数color,legend
选择性展示折线数据,建立复选框激活显示,复选框(checkbox)
二、Bokeh
三、实践操作
【项目练习】运行“程序5-10-1 直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图 。
#[0,0]图只显示直方图不显示核密度估计
#[0,1]图中rug = True表示要生成观测数值的小细条,#hist=False不生成直方图,只生成核密度估计。
#[1,0]图绘制一个填充核密度估计
#[1,1]图,既绘制直方图,又绘制和密度估计
sns.distplot(d, kde=False, color="b", ax=axes[0, 0])
sns.distplot(d, hist=False, rug=True, color="r", ax=axes[0, 1])
sns.distplot(d, hist=False, color="g", kde_kws={"shade": True}, ax=axes[1, 0])
sns.distplot(d, color="m", ax=axes[1, 1])
plt.show()
三、实践操作
【项目练习】运行“程序5-10-2 Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。
N = 100
#np.linspace(start, stop, N)在起始值和终止值之间,返回均匀间隔的N个元素
x = np.linspace(0, 4*np.pi, N)
y0 = np.sin(x)
output_file