Hive分区表

分区表介绍

分区表其实就是按照表中数据的某一列的值进行划分文件(自我理解类似于sql查询中的group by),一个分区下包含多个子目录,用于分区的虚拟列有多少种枚举值就有多少个子目录。分区表可以采用一个虚拟列进行分区,也可以采用多个虚拟列进行分区。

MapReduce实现嵌套循环连接

数据存储在HBase中,用mapreduce实现嵌套循环连接。数据如下:
小表1GB,1个整型属性(主码,连接属性),5个浮点属性,1个长度不超过100字节的字符串属性。
大表5GB,1个整型属性(连接属性,不是主码),7个浮点型属性,2个长度不超过100字节的字符串属性。