hive中分组取前N个值的实现

085567

浏览: 223513 次
性别:
来自: 北京

最近访客更多访客>>

zouhuiying

isy

zzr1000

bianqi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

需求：假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前2名

数据如下表：

id clsno score

1       c1      20
2       c1      30
3       c1      40
4       c1      50
5       c1      80
11      c1      80
12      c1      60
6       c2      20
7       c2      30
8       c2      40
9       c2      50
10      c2      80
13      c1      90

在sql中可以实现的方式是：SELECT * FROM table AS T WHERE ID IN ( SELECT TOP 2 ID FROM table WHERE clsno = T.clsno ORDER BY score DESC )

在hive中没有in这个函数，所以需要别的方式实现。

定义一个rank函数：

package com.example.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
	 
public final class Rank extends UDF{
	private int  counter;
	private String last_key;
	public int evaluate(final String key){
	  if ( !key.equalsIgnoreCase(this.last_key) ) {
	     this.counter = 0;
	     this.last_key = key;
	  }
	  return this.counter++;
	}
}

加入$HIVE_HOME/lib/hive-serde-1.7.jar:$HIVE_HOME/lib/hive- exec .jar:$HADOOP_HOME/hadoop-core.jar打成一个jar包Rank.jar

hive>add jar Rank.jar;

hive>create temporary function rank as 'com.example.hive.udf.Rank';

hive>select clsno,rank(clsno),id,score from (select clsno,id,score from byl_topn_test distribute by clsno sort by clsno,score desc)a;

得到结果：

取各科成绩中rank值小于2的记录即可。

英文原文链接：http://www.findnwrite.com/musings/extract-top-n-records-in-each-group-in-hadoophive/

查看图片附件

分享到：

hadoop状态分析系统chukwa（转）

2012-03-28 15:49
浏览 8251
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive中分组取topN_row_number-rank和dense_rank的使用.pdf: 在这篇文档中，我们将详细学习在Hive中如何进行分组取topN，以及如何使用row_number()、rank()和dense_rank()三种窗口函数进行数据排序和排名。首先，Hive中的数据表创建和数据插入操作是数据查询和分析的前提。...

《大数据平台搭建与配置管理》期中试题试卷及答案.docx: - **详细解析**：MapReduce中Map和Reduce阶段可以有多个Mapper和Reducer，但Reducer的数量通常取决于数据分区的数量。 45. **HBase的存储特点** - **知识点**：HBase是否存储空列。 - **详细解析**：HBase确实...

Spark性能测试报告-Spark SQL在不同存储格式下的性能对比: - **低维值列ydb_sex,ydb_province与高纬值列amtdouble的多列Group By Sum**：涉及高纬度数值型字段的多字段分组求和。 - **3个列Group By,8个列Max与Sum**：复杂多字段的分组统计。 #### 结论综上所述，Ya100在...

洛谷愚人节比赛.pdf: 洛谷愚人节比赛.pdf

### 文章总结：北京迅为 iTOP-3568 开发板 Linux 系统开发和应用开发手册. **文档概述: 内容概要：本文档是北京迅为电子有限公司针对iTOP-3568开发板的Linux系统开发和应用开发手册，详细介绍了开发板在Linux系统下的配置与开发方法。手册涵盖Buildroot、Debian、Ubuntu等多个Linux发行版的系统开发笔记，涉及屏幕设置、待机和锁屏、显示颜色格式、分辨率和缩放、静态IP设置、Qt程序操作、开机自启、音频视频和摄像头开发、VNC和ToDesk远程控制软件安装等内容。同时，手册还提供了关于Buildroot编译常见问题的解决方案、U-Boot和内核开发细节，以及IO电源域的配置方法。手册不仅适用于初次接触嵌入式Linux系统的开发者，也适合有一定经验的研发人员深入学习。适合人群：具备一定编程基础，尤其是对Linux系统和嵌入式开发有一定了解的研发人员，工作1-3年的工程师，以及希望深入了解嵌入式Linux系统开发的爱好者。使用场景及目标：①帮助用户掌握iTOP-3568开发板在Linux系统下的基本配置与高级开发技巧；②指导用户解决Linux系统开发中遇到的常见问题；③为用户提供详细的编译和调试指南，确保开发板能

基于MATLAB2020b的CNN-LSTM与GTO算法优化的电力负荷预测研究: 内容概要：本文探讨了基于MATLAB2020b平台，采用CNN-LSTM模型结合人工大猩猩部队(GTO)算法进行电力负荷预测的方法。首先介绍了CNN-LSTM模型的基本结构及其在处理多变量输入（如历史负荷和气象数据）方面的优势。随后详细解释了模型各层的功能，包括卷积层、池化层、LSTM层和全连接层的作用。接着讨论了超参数选择的重要性，并引入GTO算法来进行超参数优化，提高模型预测精度。文中展示了具体的MATLAB代码示例，涵盖了数据预处理、模型构建、训练配置等方面的内容。此外，还分享了一些实践经验，如卷积核配置、LSTM节点数设定等。适合人群：从事电力系统数据分析的研究人员和技术人员，尤其是对深度学习应用于电力负荷预测感兴趣的读者。使用场景及目标：适用于需要精确预测未来电力负荷的场合，旨在帮助电力公司更好地规划发电计划，优化资源配置，保障电网安全稳定运行。通过本篇文章的学习，读者可以掌握如何使用MATLAB实现CNN-LSTM模型，并学会运用GTO算法优化超参数，从而提升预测准确性。其他说明：文章强调了数据质量和预处理步骤的重要性，指出高质量的输入数据能够显著改善预测效果。同时提醒读者注意模型训练过程中的一些常见陷阱，如避免过度拟合等问题。

TIG焊接工艺中二维电弧仿真的理论与程序实现: 内容概要：本文详细介绍了TIG（钨极惰性气体保护焊）二维电弧仿真的理论基础和程序实现。首先阐述了TIG电弧的本质及其在二维仿真中的数学描述，主要采用磁流体动力学（MHD）方程进行建模。接着展示了如何使用Python生成仿真所需的网格，并初始化温度场、速度场和电场强度等物理参数。随后，通过迭代求解MHD方程，逐步更新各物理量，最终得到电弧内部的温度、速度和电场分布情况。通过对仿真结果的分析，能够深入了解焊接过程中熔化和凝固的现象，从而优化焊接参数，提高焊接质量。适合人群：从事焊接工程、材料科学及相关领域的研究人员和技术人员，尤其是对TIG焊接工艺感兴趣的学者。使用场景及目标：适用于希望深入了解TIG焊接过程并希望通过仿真手段优化焊接参数的研究人员。目标是通过仿真更好地理解电弧行为，进而改善焊接质量和效率。其他说明：文中还提到了一些实用技巧，如网格划分、边界条件设置、求解器选择等方面的注意事项，以及如何使用不同软件工具（如MATLAB、ParaView）进行数据可视化。此外，强调了多语言混合编程的优势，并提供了一些常见的调试和优化建议。

jenkins操作诶udrtyui897t86r5drctvghuiyft: jenkins操作诶udrtyui897t86r5drctvghuiyft

帆软本地打印插件FinePrint 8.0版本: 帆软本地打印插件FinePrint 8.0版本，适用于FineReport8

基于TMS320F2812的光伏并网逆变器设计与MATLAB仿真及DSP代码实现: 内容概要：本文详细介绍了基于TMS320F2812 DSP芯片的光伏并网逆变器设计方案，涵盖了主电路架构、控制算法、锁相环实现、环流抑制等多个关键技术点。首先，文中阐述了双级式结构的主电路设计，前级Boost升压将光伏板输出电压提升至约600V，后级采用三电平NPC拓扑的IGBT桥进行逆变。接着，深入探讨了核心控制算法，如电流PI调节器、锁相环(SOFGI)、环流抑制等，并提供了详细的MATLAB仿真模型和DSP代码实现。此外，还特别强调了PWM死区时间配置、ADC采样时序等问题的实际解决方案。最终，通过实验验证，该方案实现了THD小于3%，MPPT效率达98.7%，并有效降低了并联环流。适合人群：从事光伏并网逆变器开发的电力电子工程师和技术研究人员。使用场景及目标：适用于光伏并网逆变器的研发阶段，帮助工程师理解和实现高效稳定的逆变器控制系统，提高系统的性能指标，减少开发过程中常见的错误。其他说明：文中提供的MATLAB仿真模型和DSP代码可以作为实际项目开发的重要参考资料，有助于缩短开发周期，提高成功率。

基于鲸鱼优化算法与深度极限学习机的回归预测模型(WOA-DELM)及其应用: 内容概要：本文详细介绍了如何结合鲸鱼优化算法（WOA）和深度极限学习机（DELM）构建回归预测模型。首先，文章解释了鲸鱼优化算法的基本原理，这是一种受座头鲸群体狩猎行为启发的元启发式优化算法。接着，阐述了深度极限学习机的工作机制，它结合了极限学习机的快速学习能力和深度学习的层次结构。随后，文章展示了如何使用时间窗法处理数据，并构建自动编码器和极限学习机的具体步骤。特别地，文中详细描述了如何利用鲸鱼优化算法优化自动编码器的输入权重与偏置，从而提高模型的预测性能。最后，给出了完整的代码实现，包括数据预处理、模型构建、优化和预测等环节。适合人群：具备一定机器学习基础的研究人员和技术开发者，尤其是对时间序列预测感兴趣的从业者。使用场景及目标：适用于需要高精度回归预测的任务，如金融数据分析、能源消耗预测等领域。主要目标是通过优化模型参数，提高预测的准确性。其他说明：本文提供的代码示例详尽且易于修改，用户只需替换自己的数据路径即可复现实验结果。同时，文中还提供了调参的小技巧，有助于进一步提升模型表现。

### 标题：【电动船舶充电通信协议】基于CAN的非船载传导式充电机与电动船舶间数字通信协议设计及应用: 内容概要：T/CIN 029—2024标准规定了非船载传导式充电机与电动船舶之间的数字通信协议，涵盖了一般要求、通信物理层、数据链路层、应用层、充电总体流程、报文分类、格式和内容等方面。该标准旨在确保电动船舶连接到直流电网时，充电机与电池管理系统（BMS）或船舶管理系统（SMS）之间的稳定通信。标准详细定义了各层的通信要求，如物理层的ISO 11898-1和SAE J1939-11规范，数据链路层的CAN扩展帧格式，以及应用层的参数组编号和传输协议。此外，还详细描述了充电的六个阶段（物理连接、低压辅助上电、充电握手、参数配置、充电和结束）的具体流程和涉及的报文格式，确保了充电过程的安全性和可靠性。适用人群：从事电动船舶充电系统设计、开发、维护的技术人员及工程师；相关行业的研究人员；对电动船舶充电通信协议感兴趣的学者和专业人士。使用场景及目标：① 为电动船舶充电系统的开发和优化提供技术依据；② 确保充电机与BMS/SMS之间的高效、可靠通信；③ 保障充电过程的安全性和稳定性，防止因通信故障导致的充电中断或事故。其他说明：本标准由中国航海学会发布，适用于电动船舶连接到直流电网时的充电通信，为电动船舶行业的标准化发展提供了重要支持。标准中还包含了详细的故障诊断代码和报文格式，帮助技术人员快速定位和解决问题。

vue 基础语法使用心得: vue 基础语法使用心得

根据“意见”创新银发经济新模式.pptx: 根据“意见”创新银发经济新模式.pptx

机械故障诊断中盲反卷积与周期估计的MATLAB实现及应用: 内容概要：本文详细介绍了用于机械故障诊断的盲反卷积方法及其周期估计技术。首先探讨了利用自相关函数和包络谐波乘积谱（EHPS）进行周期估计的方法，提供了具体的MATLAB代码实现。接着阐述了如何将这两种方法集成到盲反卷积框架（如MCKD和CYCBD）中，形成迭代优化的解决方案。文中通过多个实际案例展示了这些方法的有效性和优越性，尤其是在转速波动较大情况下，能够显著提高故障识别率并减少计算时间。适合人群：从事机械设备状态监测与故障诊断的研究人员和技术人员，尤其是有一定MATLAB编程基础的工程师。使用场景及目标：适用于各种旋转机械设备（如风力发电机、压缩机、齿轮箱等）的状态监测和故障诊断。主要目标是在缺乏精确转速信息的情况下，通过盲反卷积技术和周期估计方法，从复杂背景噪声中提取出有用的故障特征信号，从而实现高效精准的故障检测。其他说明：文中不仅提供了详细的理论解释和技术实现步骤，还包括了许多实用的经验技巧，如参数选择、算法优化等方面的内容。此外，作者还强调了不同方法之间的互补性和组合使用的必要性，为读者提供了一个完整的解决方案视角。

腰髋疼痛医案解析与经典学习.pptx: 腰髋疼痛医案解析与经典学习.pptx

scipy-0.12.0.tar.gz: 该资源为scipy-0.12.0.tar.gz，欢迎下载使用哦！

基于Python的二手车爬虫数据可视化分析设计(毕业设计源码): 用Python开发的爬取二手车网站数据及其分析的程序，爬取的时候采用selenium驱动google浏览器进行数据的抓取，抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树，不过二手车的关键数据比如二手车价格，汽车表显里程数字采用了字体文件加密。据的展示采用pyecharts，它是一个用于生成 Echarts 图表的类库。爬取的数据插入mysql数据库和分析数据读取mysql数据库表都是通过pymysql模块操作。

机器学习（预测模型）：一个包含职员考试结果的数据集: “Clerk Exam result”数据集是关于职员考试结果的集合，它为研究职员招聘与选拔提供了丰富的数据资源。该数据集可能包含了众多考生的基本信息，如姓名、性别、年龄、学历等，这些信息有助于分析不同背景考生的考试表现差异。考试成绩是数据集的核心部分，它可能涵盖了笔试、面试等多个环节的分数，通过这些分数可以直观地看出考生在专业知识、综合能力等方面的掌握程度。此外，数据集还可能标注了考生是否通过考试，这为研究考试的选拔标准和通过率提供了依据。从数据的来源来看，它可能是由某个或多个组织在进行职员招聘考试后整理而成，具有一定的权威性和实用性。通过对该数据集的分析，可以发现考试过程中存在的问题，比如某些题目的难度是否过高或过低，以及不同地区、不同岗位的考试难度是否均衡等。同时，它也能为后续的招聘考试提供参考，帮助优化考试流程和内容，提高招聘的科学性和有效性。然而，需要注意的是，此类数据集可能涉及考生的隐私信息，因此在使用时必须严格遵守相关法律法规，确保数据的安全和合法使用。同时，由于考试内容和标准可能会随着时间、地区和岗位的不同而有所变化，因此在分析数据时也需要考虑到这些因素，避免得出片面或不准确的结论。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论