菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
71
0

网站用户行为分析

原创
05/13 14:22
阅读数 20008

2.1 数据准备

数据集下载与查看

cd /usr/local

ls

sudo mkdir bigdatacase

sudo chown -R hadoop:hadoop ./bigdatacase

cd bigdatacase

mkdir dataset

cd ~/下载

ls

unzip user.zip -d /usr/local/bigdatacase/dataset

cd /usr/local/bigdatacase/dataset

ls

head -5 raw_user.csv

数据集预处理

 

sed -i 1d raw_user

head -5 raw_user.csv

 

vim pre_deal.sh

 

 

bash ./pre_deal.sh raw_user.csv raw_user.txt

head -10 raw_user.txt

 

 

把数据集导入HDFS中

hdfs dfs -mkdir -p /bigdatacase/dataset

hdfs dfs -put /usr/local/bigdatacase/dataset/raw_user.txt /bigdatacase/dataset

hdfs dfs -ls /bigdatacase/dataset

hdfs dfs -cat /bigdatacase/dataset/raw_user.txt | head -10

 

 

 

在Hive上创建数据库

 

hive

create database dblab;

use dblab;

CREATE EXTERNAL TABLE dblab.rawdata_user(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/bigdatacase/dataset';

select * from bigdata_user limit 10;

 

 

 

2.2 Hive数据分析

1)用户行为分析需求:2014-12-11~12号有多少条购买商品的记录

    分析步骤

    • 语句:select count(*) from bigdata_user where visit_date >'2014-12-10' and visit_date <'2014-12-13' and behavior_type='4' limit 10;
    • 结果截图:运行或存为表格后的查询显示
    •  

      (2)用户行为分析需求:分析每月1-31号购买情况

    • 语句:

selectcount(distinct uid), day(visit_date) from bigdata_user where behavior_type='4' group by day(visit_date);

    结果截图:运行或存为表格后的查询显示
    • (3)自定义需求:取给定时间和地点,求当天发出到该地点的货物的数量
    • 语句:select count (*) from bigdata_user where province='江西' and visit_data='2014-12-12' and behavior_type='4';
    •  

       

发表评论

0/200
71 点赞
0 评论
收藏