大数据概念-白红宇

大数据概念

阅读量：520 次

发布时间：2019-03-07

本文共 966 字，大约阅读时间需要 3 分钟。

大数据计算技术

大数据概念

大数据概念是一个涵盖多个维度的复杂主题，涉及数据的产生、处理、分析和应用等多个方面。本文将从数据的定义、基本属性、技术特征等多个层面进行深入探讨。

数据的定义与特征

数据的基本定义

在计算机学科中，数据可以被定义为一个可以被理解、处理和存储的实体。数据的形式多样化，来源多样化，范围也呈现多样化特征。数据的转换过程是一个从数据到信息、知识再到价值的过程，这一过程决定了数据的价值。

数据的基本属性

Volume（规模体现）大数据的核心特征之一是数据量的庞大，通常达到petabytes（PB）级别。这种规模带来的影响体现在数据的存储架构和计算模型上：

数据存储架构：传统上依赖于基于行键表格存储格式的关系型数据库，但大数据环境下更倾向于基于分布式文件系统的分布式数据库。

数据计算模型：主要采用离线批处理框架（如MapReduce）和图并行计算框架（如Pregel、Hama），以及大内存计算系统。

Variety（多样性）大数据的另一个关键特征是数据来源的多样性和异构化特性。数据类型划分可以从以下几个维度进行：

结构特征

时效性

关联特性

数据类型

数据来源

数据的多样性带来了数据存储、管理和快速查询的难度。

Velocity（时效性）大数据处理往往需要高度的时效性，这意味着数据分析和处理需要在短时间内完成。

Value（价值密度）传统统计学方法依赖于局部数据或数据子集，而大数据分析则是基于完整数据集进行分析。价值低密度特性使得大数据分析需要依赖机器学习方法，通过数据的积累来训练和改进算法和计算程序。

大数据技术特征

大数据算法特性

数据计算

传统统计学与大数据计算的对比

样本空间：整个数据集

计算方法：机器学习方法

优势：避免样本失真，预测结果的精度改进是一个动态过程。

大数据计算系统特性

基础模型：分布式文件系统、NoSQL非关系型数据库

存储格式：基于键值对的列存储格式与基于主键的行存储格式

优势：支持非结构化或异构数据的存储和处理，支持分布式系统部署，支持超大规模数据集完成快速查询操作。

技术特性总结

大数据技术在算法、计算系统和开发技术方面展现出独特的特征。这些特征不仅体现在技术实现上，更反映在解决实际问题的能力上。理解和掌握这些特征，是在大数据领域发展中不可或缺的基础。

转载地址：http://meznz.baihongyu.com/

你可能感兴趣的文章

Openlayers中将某个feature置于最上层

Openlayers中点击地图获取坐标并输出

Openlayers中设置定时绘制和清理直线图层

Openlayers入门教程 --- 万字长篇

Openlayers图文版实战，vue项目从0到1做基础配置

OpenLayers学习三：地图旋转及地图跳转到某一点的方式（以类为接口）

Openlayers实战：loadstart和loadend事件

Openlayers实战：modifystart、modifyend互动示例

Openlayers实战：moveend事件，利用calculateExtent获取地图左上和右下的坐标

Openlayers实战：判断共享单车是否在电子围栏内

Openlayers实战：利用turf获取两个多边形的交集、差集、并集

Openlayers实战：加载Bing地图

Openlayers实战：加载GeoJSON

Openlayers实战：加载SHP文件

Openlayers实战：界面控制综合演示

Openlayers实战：绘制图形，导出geojson文件

Openlayers实战：绘制图形，导出KML文件

Openlayers实战：绘制多边形，导出CSV文件

Openlayers实战：绘制带箭头的线

Openlayers实战：绘制点、线、圆、多边形