MapReduce实现嵌套循环连接

数据存储在HBase中,用mapreduce实现嵌套循环连接。数据如下:
小表1GB,1个整型属性(主码,连接属性),5个浮点属性,1个长度不超过100字节的字符串属性。
大表5GB,1个整型属性(连接属性,不是主码),7个浮点型属性,2个长度不超过100字节的字符串属性。

毕业论文系列之三:实验介绍

这里要处理的是一个关键词数据集,有1千多万条数据,数据集中分为有标注词(已经标注出该关键词所有分类)和未标注词(未标注出关键词所属分类),例如“天津 公寓 3”这表示数据集中一行,“天津 酒店公寓”是关键词,也可称为文档,“3”是关键词所属的分类,关键词和分类之间以tab键隔开,如果是标注的关键词,则用“-”代替分类,分类一共有33类,也就是关键词后面的数字从1到33,现在通过学习已标注关键词来标注未分类的关键词。程序的处理流程如图4.1。