CHEN Jian's Java Blog

hbase跟hadoop的关系

Leave a Comment / Architecture / December 2, 2012 December 2, 2012

HBase是独立项目虽然HBase一开始是作为Hadoop的子项目存在的，但现在它已经是apache顶级项目了. 在使用时，HBase也只是用作NoSql数据库，跟Hadoop的MapReduce没有必然联系。不过，两者之间还是有很多相关的地方：相关点 1.HBase数据的存储用的是Hadoop文件的API，实际的存储一般也是HDFS 2.HBase经常用作MapReduce的数据源或者目标输出 3.HBase的分布式架构模仿了Hadoop的风格，也是一主多从 4.HBase的配置文件名、配置项的名字也尽量与Hadoop一致。

hbase集群架构

Leave a Comment / Architecture / December 2, 2012 December 2, 2012

摘自象书：

hbase的动态schema

Leave a Comment / Architecture / December 2, 2012 December 2, 2012

1. Column Family不能动态增减 2. 但在一个Column Family里面可以随时通过put等语句添加新列待续。。。

Why hbase?

Leave a Comment / Architecture / December 2, 2012 December 2, 2012

摘自象书 Q: 为什么不直接用mysql? A: mysql无法自动分表分库，手动分又比较复杂 Q: 为什么不用Hive? A: Hive只适合批量的、比较慢的数据处理，不方便做单行的、立即响应的处理

搭建hbase的pseudo distributed环境

Leave a Comment / Architecture / December 2, 2012 December 2, 2012

无干货，仅供复制选择与你的hadoop兼容的hbase版本我的hadoop是1.0.4版本。经试验发现与hbase 0.90不兼容，后来改用hbase 0.94.2就可以了。配置hbase <!– conf/hbase-site.xml –> <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://localhost:8020/hbase</value> <!–假定你的hdfs namenode也装在本机–> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> </configuration> 启动hbase 引用 #start-hbase.sh #这里假定hdfs已经启动查看web控制台验证启动是否成功引用 http://localhost:60010 停止hbase 引用 #stop-hbase.sh 常见问题如果在hbase日志里看到引用 java.io.IOException: Call to localhost/127.0.0.1:8020 failed on local exception: java.io.EOFException 应该再去hdfs日志里看一下有没有相关的信息。比如引用 2012-12-02 15:21:31,650 WARN org.apache.hadoop.ipc.Server: Incorrect header or version mismatch from …

搭建hbase的pseudo distributed环境 Read More »

使用fastjson往浏览器输出字符串时应使用的参数

Leave a Comment / Java / November 29, 2012 November 29, 2012

使用fastjson往浏览器输出字符串时，应该在调用fastjson API时使用以下两个参数： 1. SerializerFeature.DisableCircularReferenceDetect 2. SerializerFeature.BrowserCompatible 如果不使用第1个参数且传入的对象中有小对象被引用两次（比如map中两个key共用一个value对象），就可能导致输出的json中出现$ref等字样如果不使用第2个参数，则有可能出现浏览器兼容问题

[Hadoop] 例示Hive的使用

Leave a Comment / Architecture / November 27, 2012 September 10, 2019

这篇文章介绍如何用hive来分析一个网站访问日志文件。这里假定你已经安装好了一个跟hadoop集群（pseudo mode亦可)协作的hive，如果还没有，看这里建表 hive> create table coupon11_log (day string, time string, usernameid string, ip string, url string) row format serde ‘org.apache.hadoop.hive.contrib.serde2.RegexSerDe’ with serdeproperties( “input.regex” = “([^\\s]+)\\s+([^\\s]+)\\s+[^\\s]+\\s+[^\\s]+\\s+[^\\s]+\\s+[^\\s]+\\s+\-\\s+userNameId\-([^\\s]+)\\s+from\\s+IP\-([^\\s]+)\\s+invoked\\s+URL\-([^\\s]+).*” ); — 这个正则表达式就是访问日志的正则，一共5个括号，对应表里的5列从HDFS载入数据文件到表中 hive> load data inpath ‘/user/coupon11log’ overwrite into table coupon11_log; –这里其实只会复制文件，不会解析它，所以这一步很快 select * from coupon11_log limit 10; — 小看一下装载进来的数据试一个简单的统计查询 hive> select url, count(*) as …

[Hadoop] 例示Hive的使用 Read More »

[Hadoop]搭建Hive环境

Leave a Comment / Architecture / November 27, 2012 November 27, 2012

无干货，仅供复制注：这里假定机器上已经运行了一个pseudo mode的hadoop 1.下载、解压 2.把HIVE_INSTALL/bin 加入到path中 3.配置相关的hadoop信息 <!–HIVE_INSTALL/conf/hive-site.xml–> <configuration> <!–跟hadoop下的cores-site.xml一致–> <property> <name>fs.default.name</name> <value>hdfs://localhost/</value> </property> <!–跟hadoop下的mapret-site.xml一致–> <property> <name>mapred.job.tracker</name> <value>localhost:8021</value> </property> </configuration> 4. 在hadoop服务器上执行hive查询时需要用到hive的一个库，需要在hive里配置。 <!–HIVE_INSTALL/conf/hive-site.xml–> <property> <name>hive.aux.jars.path</name> <value>/home/kent/hive-contrib-0.9.0.jar</value> </property> 当然，要把这个库从本地复制到hdfs中，引用 #hadoop fs -copyFromLocal /home/kent/dev/hadoop/hive-0.9.0/lib/hive-contrib-0.9.0.jar /home/kent/hive-contrib-0.9.0.jar 5. 最后试一下 # echo ‘X’ > /tmp/dummy.txt # hive > create table dummy (value string); –建一个表 > load data local inpath …

[Hadoop]搭建Hive环境 Read More »

Hadoop的进程、结点对应图

Leave a Comment / Architecture / November 26, 2012 November 26, 2012

摘自 Hadoop In Action 1.NameNode和JobTracker可以分拆到两台机上 2.DataNode和TaskTracker有对应的关系，在每台机器上要成对出现 3.NameNode和JobTracker都是单点

市面上的Hadoop云服务

Leave a Comment / Architecture / November 26, 2012 November 26, 2012

摘自象书 1.Cloudera提供公有云和私有云 2.Aamzon有Elastic MapReduce服务另外Apache有个项目Apache Whirr可以帮你在Amazon EC2上迅速搭建hadoop环境