有没有人用过景行锐创软件的高性能计算软件?
越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。
而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在。
关于Hadoop “大数据”是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理。
大数据是结构化或非结构化的多种数据类型的大集合。
而Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管理处理的形式。
Hadoop使得对大数据处理成为可能,并能够帮助企业可从客户数据之中发掘新的商机。
如果能够进行实时处理或者接近实时处理,那么其将为许多行业的用户提供强大的优势。
Hadoop是基于谷歌的MapReduce和分布式文件系统原理而专门设计的,其可在通用的网络和服务器硬件上进行部署,并使之成为计算集群。
Hadoop模型 Hadoop的工作原理是将一个非常大的数据集切割成一个较小的单元,以能够被查询处理。
同一个节点的计算资源用于并行查询处理。
当任务处理结束后,其处理结果将被汇总并向用户报告,或者通过业务分析应用程序处理以进行进一步分析或仪表盘显示。
为了最大限度地减少处理时间,在此并行架构中,Hadoop“movesjobstodata”,而非像传统模式那样“movingdatatojobs”。
这就意味着,一旦数据存储在分布式系统之中,在实时搜索、查询或数据挖掘等操作时,如访问本地数据,在数据处理过程中,各节点之间将只有一个本地查询结果,这样可降低运营开支。
Hadoop的最大特点在于其内置的并行处理和线性扩展能力,提供对大型数据集查询并生成结果。
在结构上,Hadoop主要有两个部分: Hadoop分布式文件系统(HDFS)将数据文件切割成数据块,并将其存储在多个节点之内,以提供容错性和高性能。
除了大量的多个节点的聚合I/O,性能通常取决于数据块的大小——如128MB。
而传统的Linux系统下的较为典型的数据块大小可能是4KB。
MapReduce引擎通过JobTracker节点接受来自客户端的分析工作,采用“分而治之”的方式来将一个较大的任务分解成多个较小的任务,然后分配给各个TaskTrack节点,并采用主站/从站的分布方式(具体如下图所示):Hadoop系统有三个主要的功能节点:客户机、主机和从机。
客户机将数据文件注入到系统之中,从系统中检索结果,以及通过系统的主机节点提交分析工作等。
主机节点有两个基本作用:管理分布式文件系统中各节点以及从机节点的数据存储,以及管理Map/Reduce从机节点的任务跟踪分配和任务处理。
数据存储和分析处理的实际性能取决于运行数据节点和任务跟踪器的从机节点性能,而这些从机节点则由各自的主机节点负责沟通和控制。
从节点通常有多个数据块,并在作业期间被分配处理多个任务。
部署实施Hadoop 各个节点硬件的主要要求是市县计算、内存、网络以及存储等四个资源的平衡。
目前常用的并被誉为“最佳”的解决方案是采用相对较低成本的旧有硬件,部署足够多的服务器以应对任何可能的故障,并部署一个完整机架的系统。
Hadoop模式要求服务器与SAN或者NAS进行直接连接存储(DAS)。
采用DAS主要有三个原因,在标准化配置的集群中,节点的缩放数以千计,随着存储系统的成本、低延迟性以及存储容量需求不断提高,简单配置和部署个主要的考虑因素。
随着极具成本效益的1TB磁盘的普及,可使大型集群的TB级数据存储在DAS之上。
这解决了传统方法利用SAN进行部署极其昂贵的困境,如此多的存储将使得Hadoop和数据存储出现一个令人望而却步的起始成本。
有相当大一部分用户的Hadoop部署构建都是采用大容量的DAS服务器,其中数据节点大约1-2TB,名称控制节点大约在1-5TB之间,具体如下图所示:来源:BradHedlund,DELL公司 对于大多数的Hadoop部署来说,基础设施的其他影响因素可能还取决于配件,如服务器内置的千兆以太网卡或千兆以太网交换机。
上一代的CPU和内存等硬件的选择,可根据符合成本模型的需求,采用匹配数据传输速率要求的千兆以太网接口来构建低成本的解决方案。
采用万兆以太网来部署Hadoop也是相当不错的选择。
万兆以太网对Hadoop集群的作用 千兆以太网的性能是制约Hadoop系统整体性能的一个主要因素。
使用较大的数据块大小,例如,如果一个节点发生故障(甚至更糟,整个机架宕机),那么整个集群就需要对TB级的数据进行恢复,这就有可能会超过千兆以太网所能提供的网络带宽,进而使得整个集群性能下降。
在拥有成千上万个节点的大型集群中,当运行某些需要数据节点之间需要进行中间结果再分配的工作负载时,在系统正常运行过程中,某个千兆以太网设备可能会遭遇网络拥堵。
每一个Hadoop数据节点的目标都必须实现CPU、内存、存储和网络资源的平衡。
如果四者之中的任意一个性能相对较差的话,那么系统的潜在处理能力都有可能遭遇瓶颈。
添加的CPU和内存组建,将影响存储和网络的平衡,如何使Hadoop集群节点在处理数据时更有效率,减少结果,并在...
谁知道香港联科集团这个公司怎么样?
这个公司是还是不错的,公司的产品服务领域主要集中在高性能计算(HPC),云计算,大数据架构和人工智能,这些都是现在IT产业比较热门的话题领域,因此公司的发展前景非常广阔。
就连科集团的产品和服务而言,有新意,大部分产品和服务都还不错,市场上也很有竞争力,还是亚洲首个提供HPC解决方案的公司,有挺强的竞争力。
很多产品例如联科集团自主开发的联科高性能计算环境软件包(CHESS) 获颁“香港工商业科技成就优异奖”及“中国优秀软件产品”称号,PRISMA夺得2016香港资讯及通讯科技奖-最佳智慧香港奖 (大数据应用) 银奖等等。
因此,各行各业的企业都与他们合作过,比如金融行业的中国银行,HSBC等;教育行业的清华大学,北京大学,中国科学院等;电信行业的中国联通,华为等;公共事务的中华人民共和国民政部,中国水利等;还有一些零售能源等方向的热门企业。
就这个公司的环境来说,我在联科工作的时候,觉得还是很自由的,公司环境也很温馨,上下班时间也很弹性,经常可以在家办公等。
公司的福利待遇也很正规,待遇不错。