TreeviewCopyright © qgao 2021-* all right reserved, powered by aleen42

基础

1 大数据概念

数据:

  • 事实或观察的结果
  • 对客观事物的逻辑归纳
  • 用于表示客观事物的未经加工的原始素材

数据的产生:

  • 对客观事物的计量和记录产生数据

1.1 数据存储单位

大单位 小单位
1 Byte 8 bit
1 KB 1024 Byte
1 MB 1024 KB
1 GB 1024 MB
1 T(太) 1024 G
1 P(拍) 1024 T
1 E(艾) 1024 P
1 Z(泽) 1024 E
1 Y(尧) 1024 Z
1 B(布) 1024 Y
1 N(诺) 1024 B
1 D(刀) 1024 N

2 大数据5v特征

  1. Volume 数据体量大
    • 采集数据量大
    • 存储数据量大
    • 计算数据量大
    • TB,PB级别起步
  2. Varity 种类,来源多样化
    • 种类: 结构化(mysql的表),半结构化(json数据),非结构化(完全无规则)
    • 来源: 日志文本,图片,音频,视频
  3. Value 价值密度低
    • 信息海量但是价值密度低
    • 深度复杂的挖掘分析需要机器学习参与
  4. Velocity 速度快
    • 数据增长速度快
    • 获取数据速度快
    • 数据处理速度快
  5. Veracity 数据质量
    • 数据准确性
    • 数据可信赖度

3 大数据业务分析基本步骤

  1. 明确分析目的和思路
  2. 数据收集
  3. 数据预处理: 变成结构化数据
  4. 数据分析
  5. 数据应用: 使用图形或表格进行展示
  6. 报告撰写: 总结

加重的3项才是技术领域需要关注的点.

Copyright © qgao 2021-* all right reserved,powered by Gitbook该文件修订时间: 2022-06-06 16:56:43

results matching ""

    No results matching ""