Hadoop点滴-外围概念-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop点滴-外围概念

阅读量：4947 次

发布时间：2019-06-11

本文共 625 字，大约阅读时间需要 2 分钟。

有句话说的好“大数据胜于好算法”

硬盘存储容量在不断提升的同时，访问速度（硬盘数据读取速度）却没有同步增长；1990年，访问全盘需要5分钟，20年后，需要2.5小时

不同的业务大数据，存储在一套HDFS上，但常常分析工作是在不同时间点进行的，所以彼此之间干扰并不太大

MP每次查询数据需要处理整个数据集，看是采用了一种蛮力方法，但却反映了它的能力

MP更适合那种没有用户在现场等待查询结果的离线使用场景

为什么不使用RDBMS，而使用Hadoop
1. 寻址时间远远大于数据传输时间
2. MP比较适合批处理方式处理整个数据集
3. RDBMS比较适合点查询
4. RDBMS在写数据时对数据范式进行校验，MP在读数据时才对数据进行解释

　　高性能计算（High Performance Computing，HPC）：集群计算资源，数据资源存放在SAN上；如果计算数据量庞大，很多计算节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据

Hadoop尽量在计算节点上存储数据，以实现数据的本地快速访问

在大规模分布式计算环境下，协调各个进程的执行是一个很大的挑战，最困难的是合理处理系统的部分失效问题（在不知道一个远程进程是否挂了的情况下）同时还需要继续完成整个计算

Hadoop采用无共享模式，各个人物之间是彼此独立的，从程序员角度来看，任务的执行顺序无关紧要。

转载于:https://www.cnblogs.com/jiangtao1218/p/8729023.html

你可能感兴趣的文章

20175301 实验五《网络编程与安全》实验报告

window下的run命令行解释 - 转

android 数据存储方式

第一次作业

SQL中的escape的用法

C#之结束指定进程!...

CV特征提取：

虚拟机极简配置manjaro gnome

Linux配置成网关

【Yii】数据库读写方法：AR模型和DAO方法

具有普遍性的一些关系

理解和使用SQL Server中的并行

第二冲刺阶段计划

Redis 安装与配置

spark[源码]-TaskSchedulerlmpl类源码

一道面试题

C语言第三次作业

从零开始学算法：高精度计算

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-24 11:38:06 当前IP: 3.144.1.100 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我