专注于快乐的事情

大数据学习

虚拟环境下spark相关软件的安装配置

机器配置假设已经成功配置了三台虚拟机器,分别为:master,node1,node2。安装的都为centos7。 安装JDK开发插件在master机器中 安装yum install -y java-1.8.0-openjdk-dev...

mac下配置pyspark环境

安装过程以前用的spark版本有点老了,来个新的。 安装包下载地址: https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz 解压...

Hive学习

Hive学习创建一个最简单的数据库create database IF NOT EXISTS testdb;数据库在HDFS上存储的位置为/user/hive/warehouse/testdb.db 指定数据库在HDFS上存储的位置c...

CDH学习和安装

测试环境安装docker pull cloudera/quickstart:latest docker rm cloudera -f docker run –name cloudera –privileged=true –hostna...

Hadoop常用组件操作

测试环境安装QuickStart VM是一个包含了分布式数据处理平台的虚拟镜像,方便用户试运行CDH,并了解CDH的新功能、新组件。Docker也可以作为快速启动项来部署启动Apache Hadoop和Cloudera,而且速度要比其...

Hbase学习

HBase的特性容量巨大HBase的单表可以有百亿行、百万列 面向列HBase是面向列的存储和权限控制,并支持列独立检索。 vs传统行式数据库 数据是按行存储的 没有索引的查询使用大量I/O 建立索引和物化视图需要花费大量的时间和资...

Docker下MongoDB复制集

安装过程安装docker run -p27018:27017--name mongo0 -d mongo:3.6.2-jessie --replSet "rs0" --bind_ip_all docker run ...

Elasticsearch入门学习

docker安装假设宿主机ip为10.168.1.111下载 docker pull elasticsearch:5.6.4 docker pull mobz/elasticsearch-head:5 安装esmaster...