博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop点滴-外围概念
阅读量:4947 次
发布时间:2019-06-11

本文共 625 字,大约阅读时间需要 2 分钟。

  1. 有句话说的好“大数据胜于好算法”
  2. 硬盘存储容量在不断提升的同时,访问速度(硬盘数据读取速度)却没有同步增长;1990年,访问全盘需要5分钟,20年后,需要2.5小时
  3.  不同的业务大数据,存储在一套HDFS上,但常常分析工作是在不同时间点进行的,所以彼此之间干扰并不太大
  4. MP每次查询数据需要处理整个数据集,看是采用了一种蛮力方法,但却反映了它的能力
  5. MP更适合那种没有用户在现场等待查询结果的离线使用场景
  6. 为什么不使用RDBMS,而使用Hadoop
    1. 寻址时间远远大于数据传输时间
    2. MP比较适合批处理方式处理整个数据集
    3. RDBMS比较适合点查询
    4. RDBMS在写数据时对数据范式进行校验,MP在读数据时才对数据进行解释
  7.   高性能计算(High Performance Computing,HPC):集群计算资源,数据资源存放在SAN上;如果计算数据量庞大,很多计算节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据
  8. Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问
  9. 在大规模分布式计算环境下,协调各个进程的执行是一个很大的挑战,最困难的是合理处理系统的部分失效问题(在不知道一个远程进程是否挂了的情况下)同时还需要继续完成整个计算
  10. Hadoop采用无共享模式,各个人物之间是彼此独立的,从程序员角度来看,任务的执行顺序无关紧要。

 

转载于:https://www.cnblogs.com/jiangtao1218/p/8729023.html

你可能感兴趣的文章
BUPT复试专题—众数(2014)
查看>>
20145316 《信息安全系统设计基础》第十四周学习总结
查看>>
Liferay7 BPM门户开发之18: 理解ServiceContext
查看>>
Intel Galileo development documentation
查看>>
EV: Workaround to Allow Only One Instance or Window of outlook
查看>>
数据校验,
查看>>
IntelliJ IDEA完美解决tomcat8+乱码问题
查看>>
破解电信光猫华为HG8120C关闭路由功能方法
查看>>
在Qt示例项目的C ++ / QML源中的//! [0]的含义是什么?
查看>>
【智能家居篇】wifi网络接入原理(上)——扫描Scanning
查看>>
操作引入xml文件的书包(定位到指定节点)
查看>>
操作系统学习笔记系列(一)- 导论
查看>>
CSS实例:图片导航块
查看>>
window的对象有哪些(笔记)
查看>>
Boolean Expressions
查看>>
They Are Everywhere
查看>>
数据结构--汉诺塔递归Java实现
查看>>
day14 多态与抽象
查看>>
Eclipse CDT 出现 launch failed Binary not found
查看>>
apache jmeter
查看>>