Hadoop基础-13-Hive实战-猿圈-程序猿的知识社区

源码见：https://github.com/hiszm/hadoop-train

外部表在Hive中的使用

带有EXTERNAL关键字的就是外部表
不然一般都是内部表(managed_table)

  CREATE EXTERNAL TABLE emp_external(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_external';

内部表	外部表
内部表数据由Hive自身管理	外部表数据由HDFS管理；
内部表数据存储的位置是`hive.metastore.warehouse.dir` （默认：`/user/hive/warehouse`），	外部表数据的存储位置由自己制定（如果没有`LOCATION`， Hive将在`HDFS`上的`/user/hive/warehouse`文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
删除内部表会直接删除元数据（metadata）及存储(`HDFS`)数据；	删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除；
对内部表的修改会将修改直接同步给元数据	而对外部表的表结构和分区进行修改，则需要修复（`MSCK REPAIR TABLE table_name`;）

track_info分区表的创建

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。
分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。

create external table trackinfo(
ip string,
country string,
province string,
city string,
url string,
time string,
page string
)partitioned by (day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
location '/project/trackinfo';

将ETL的数据加载到Hive表

crontab表达式进行调度

Azkaban调度: ETLApp==>其它的统计分析

LOAD DATA INPATH 'hdfs://hadoop000:8020/project/input/etl/part-r-00000' OVERWRITE INTO TABLE trackinfo partition(day='2013-07-21');

[hadoop@hadoop000 data]$ hadoop fs -ls /project/trackinfo
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2020-09-09 22:45 /project/trackinfo/day=2013-07-21
[hadoop@hadoop000 data]$

使用Hive完成统计分析功能

统计 pv

select count (*) from trackinfo where day ='2013-07-21';

城市统计

select province , count (*) from trackinfo where day ='2013-07-21' group by province;
'

省份临时统计表

create external table trackinfo_province(
province string,
cnt bigint
)partitioned by (day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
location '/project/trackinfo/province';

insert overwrite table trackinfo_province partition(day='2013-07-21')
select  province , count (*) as cnt from trackinfo where day ='2013-07-21' group by province;
select * from trackinfo_province where day='2013-07-21';

然后用sqoop导入到RDMS里面

ETL
将ETL加入到trackinfo里面
然后讲统计结果按照分区一次导入到各个表中
再把数据导入关系数据库里面

上述过程可以封装起来然后用crontab/Azkaban直接运行即可

不洗澡的鲸鱼?

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8678 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览