大数据
Hadoop集群环境下的网络架构的设计与优化
大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验。大数据...
Hadoop虽然强大,但不是万能的
在下面这几种场景就不适合使用Hadoop:1、低延迟的数据访问Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。但是如果你真的想要取代一个实时数据库,可以尝试一下...
Hadoop 技术在电信运营商上网日志处理中的应用架构
Hadoop 技术在电信运营商上网日志处理中的应用架构方建国一、电信运营商上网日志处理的现状在移动互联网如此普及的今天,每天会产生大量的上网日志,这些上网日志由于数据量巨大,产生后只能被保留3 天,就因为存储空间等原因被丢弃。目前,电信运营商只能基...
AWS领跑云市场 开源数据库各显神通
亚马逊领跑云市场 微软大打亲和牌这周对于亚马逊来说,应该是“悲喜交加”的一周。首先,AWS在中国的首次市场培训活动在北京拉开帷幕,来自全国各地的近400参会者让会场座无虚席,开了“AWS中国行”的好兆头。...
Hadoop 平台在金融银行业的应用架构
Hadoop 平台在金融银行业的应用架构薛强彦一、金融银行业现状随着我国金融银行业的发展和网络通信基础设施水平的提高,金融银行业信息化已经逐渐普及,但是随着互联网技术和应用的飞速发展,许多新兴的支付方式不断涌现,金融银行业的数据信息量也在快速增长...
优酷土豆Hadoop 平台开放之路(1)
优酷土豆Hadoop 平台开放之路(1)傅杰背景早在2011 年之前,只有优酷网数据团队在使用Hadoop。两年间随着Hadoop 技术的推广以及大数据的影响,越来越多的领域都在使用Hadoop,公司的其他团队也在逐步引入Hadoop 技术。201...
如何利用Mahout和Hadoop处理大规模数据
利用Mahout和Hadoop处理大规模数据规模问题在机器学习算法中有什么现实意义?让我们考虑你可能需要部署Mahout来解决的几个问题的大小。据粗略估计,Picasa三年前就拥有了5亿张照片。 这意味着每天有百万级的新照片需要处理。一张照片的分析本身...
优酷土豆Hadoop 平台开放之路(2)
优酷土豆Hadoop 平台开放之路(2)引入KerberosHadoop 在1.0 以后的版本中支持了Kerberos,我们将Kerberos 安全认证开启,上述描述的相关问题都能得到解决。下图所示为Kerberos 的主体结构图,包括Identity...
机器学习对大数据应用贡献非凡
机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了最好的数据科学家们的忽视。...
HDP新版本让Hadoop真正成为企业级数据平台
Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能。...
Hadoop连载系列之六:数据收集分析系统Chukwa
系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统&mdash...
Hadoop技术:三大巨头领航
在大数据时代,Hadoop技术是最为常见的,随着Hadoop技术应用的逐渐深入,人们对Hadoop的关注也变得炙手可热。我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括H...
九家Hadoop技术企业最值得关注
如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的Hadoop发行版了。作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气、并开始逐步走入寻常企业环境。促成这一现状的原因有二:其...
不得不用Hadoop进行大数据处理的五大理由
Joe Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如“可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据…&hell...
从火种到核心 浅析Hadoop大数据用户的演变
在Hadoop发展的8年时间里,我们看到一种“使用浪潮”——一代又一代用户在相同的时间和类似的环境下使用Hadoop。每一个在数据处理时使用了Hadoop的用户,都面临着类似的挑战,为了让一切正常运转,要么被迫协...
Hortonworks为Hadoop发行版新增企业级功能
在近日结束的Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能,代表着针对交互式SQL查询的Sting...
Hadoop Streaming编程实例
Hadoop Streaming是Hadoop提供的多语言编程工具,通过该工具,用户可采用任何语言编写MapReduce程序,本文将介绍几个Hadoop Streaming编程实例,大家可重点从以下几个方面学习:(1)对于一种编写语言,应该怎么编写Mapper...
2014年值得关注的10个开源项目
【编者按】如果你认为开源软件的优势是免费和拿来主义,那么你就错了,在当今的软件市场中开源项目越来越耀眼,选择开源软件的最大优势无非是风险低、产品透明、行业适应能力强等等,但是在开源项目领域真正有影响力的企业,绝对是那些为这个项目贡献代码最多...






















