集群spark hive

Hive之set参数大全-7

指定 Hive LLAP（Live Long and Process）守护进程的委托令牌的生存期在 Apache Hive 中，hive.llap.daemon.delegation.token.lifetime 是一个配置属性，用于指定 Hive LLAP（Live Long and Proc ......

参数大全 Hive set更新时间 2024-01-08

Hive之函数解析

1.1 查看系统自带的函数 -- 查看系统自带函数 show functions; -- 查看自带函数的用法 desc/describe function 函数名; -- 查看自带函数的具体用法 desc/describe function extended 函数; 1.2 窗口函数 1.2.1 相 ......

函数 Hive更新时间 2024-01-08

Hive文件存储格式

结论： Text File，Parquet ，ORC Files结合使用，优先使用前两种，对存储及查询性能有极高要求时使用ORC。存储格式使用场景 Text File 数据直观，便于查看和编辑，数据量较小的维表可以使用. Parquet 支持深度嵌套，可用于多种数据处理框架（Hive/Spark ......

格式文件 Hive更新时间 2024-01-08

Hive 数据写入流程

概念简介外部表：删除表时，外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景，便于数据共享。内部表：删除表时，内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。分区表：数据较多，为提高计算速度时使用。内部表&外部表写入流程图具体流程Demo 以外部表为例： ......

流程数据 Hive更新时间 2024-01-08

hive分区表数据导入

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区. 1. hive建立分区表 create external ta ......

数据 hive更新时间 2024-01-08

Hive 复杂数据类型Array，Map，Struct

建表语句，支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p ......

类型数据 Struct Array Hive更新时间 2024-01-08

Hive写入JSON数据

优缺点： 1.JsonSerDe对json数据格式有严格要求，创建的表结果必须与json结构能对应上，否则会报错。配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。必须定义好详细字段嵌套的规则类型，不适合提取ODS原文。 2.g ......

数据 Hive JSON更新时间 2024-01-08

Hive Array数据处理

建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE ......

数据处理数据 Array Hive更新时间 2024-01-08

安装HUE并配置连接Hive&Flink&TIDB

创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op ......

amp Flink Hive TIDB HUE更新时间 2024-01-08

Oracle11 集群（一）

集群安装准备2019年7月18日15:29https://www.cnblogs.com/xshrim/p/5952211.html #参考文章rac环境节点1节点2ip10.56.85.23510.56.85.236hostnamerac1rac2hosts10.56.85.235 rac110. ......

集群 Oracle 11更新时间 2024-01-08

Oracle11 集群（二）

集群grid软件安装2019年7月19日10:30grid安装需要登录到grid用户下进行，绝大多数操作仅需在节点1上执行即可。解压安装介质：#仅节点1执行[grid@rac1 u01]$unzip p13390677_112040_Linux-x86-64_1of7.zip[grid@rac1 u ......

集群 Oracle 11更新时间 2024-01-08

Oracle11 集群（三）

集群oracle软件安装2019年7月19日15:31ORACLE软件安装集群框架GRID安装完成并开启后，剩下的所有操作均只需在节点1执行即可，其余节点会自动完成配置同步。接下来登入节点1的oracle账户，开始oracle数据库软件的安装。如同验证grid先决条件一样，先运行runcluvfy. ......

集群 Oracle 11更新时间 2024-01-08

Oracle11 集群（四）

集群建库2019年7月17日17:23开始实例和数据库的创建，以oracle用户登录节点1，开启数据库配置助手开始创建：#仅节点1执行[oracle@rac1 u01]$ export LANG=en_US[oracle@rac1 u01]$ dbca弹出配置界面：1, 创建集群数据库2, 创建单节 ......

集群 Oracle 11更新时间 2024-01-08

Atlas集成Hive

修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri ......

Atlas Hive更新时间 2024-01-08

Day1 - 大规模Elasticsearch集群管理心得（转）

转自：https://elasticsearch.cn/article/110 【携程旅行网吴晓刚】 ElasticSearch目前在互联网公司主要用于两种应用场景，其一是用于构建业务的搜索功能模块且多是垂直领域的搜索，数据量级一般在千万至数十亿这个级别；其二用于大规模数据的实时OLAP，经典的如 ......

管理心得集群 Elasticsearch 大规模心得更新时间 2024-01-08

Running Spark on YARN

Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行，并在后续版本 ......

Running Spark YARN on更新时间 2024-01-08

Redis集群详解

Redis集群详解 1. 如何保证 Redis 服务高可用？ Redis Sentinel 集群 2. Sentinel（哨兵）有什么用？监控 Redis 节点的运行状态并自动实现故障转移 3. Redis 缓存的数据量太大怎么办？ Redis Cluster 4. Redis Cluster 虚 ......

集群 Redis更新时间 2024-01-08

openEuler欧拉配置Nacos集群

一、安装Nacos systemctl stop firewalld systemctl disable firewalld mkdir -p /home/nacos tar xvf nacos-server-2.1.2.tar mv nacos nacos8848 cd /home/nacos ......

集群 openEuler Nacos更新时间 2024-01-08

spark-cdh学习

Spark: 1.Apache Spark是用于大规模数据处理的统一分析引擎 2.一款分布式内存计算的分析引擎源数据层: 1.sdk日志埋点 2.日志文件:爬虫日志,业务日志 3.关系型数据库:mysql,oracle等数据采集层: 1.离线:flume,sqoop,Nifi 2.实时:file ......

spark-cdh spark cdh更新时间 2024-01-07

Hive之set参数大全-1

A 控制是否允许在需要时按需加载用户定义函数（UDF） hive.allow.udf.load.on.demand 是 Apache Hive 中的一个配置属性，用于控制是否允许在需要时按需加载用户定义函数（UDF）。在 Hive 中，UDFs是用户编写的自定义函数，可以在 Hive SQL 查询 ......

参数大全 Hive set更新时间 2024-01-07

Hive之set参数大全-2

C 指定是否启用表达式缓存的评估 hive.cache.expr.evaluation 是 Hive 中的一个配置属性，用于指定是否启用表达式缓存的评估。表达式缓存是一项优化技术，它可以在执行查询时缓存表达式的评估结果，以减少计算开销。在 Hive 配置中，可以使用以下方式设置 hive.cach ......

参数大全 Hive set更新时间 2024-01-07

Hive之set参数大全-3

D 是否启用本地任务调试模式 hive.debug.localtask 是 Apache Hive 中的一个配置参数，用于控制是否启用本地任务调试模式。在调试模式下，Hive 将尝试在本地模式下运行一些任务，以便更容易调试和分析问题。具体来说，当 hive.debug.localtask 被设置为 ......

参数大全 Hive set更新时间 2024-01-07

Hive之set参数大全-4

F 指定在使用 FETCH 命令提取查询结果时的序列化/反序列化器 hive.fetch.output.serde 是 Hive 的一个配置参数，用于指定在使用 FETCH 命令提取查询结果时的序列化/反序列化器。以下是一个示例： -- 设置 hive.fetch.output.serde 为 o ......

参数大全 Hive set更新时间 2024-01-07

大数据本地环境搭建-Zookeeper/Hadoop/Hive搭建

1. Zookeeper环境安装链接：https://pan.baidu.com/s/1wzbCiDxP7H5G_llwjSS3Rw?pwd=wgal 提取码：wgal 1.1 上传tar包 zookeeper-3.4.6.tar 注意：上传文件位置为 /export/server目录 1.2 解 ......

Zookeeper 环境数据 Hadoop Hive更新时间 2024-01-07

Spark运行模式之——local模式与Standalone模式

Spark有多种运行模式，可以运行在一台机器上，称为本地（单机）模式——local模式；可以使用Spark自带的资源调度系统，称为Spark Standalone模式；也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行，称为Spark On YARN模式。本文就介绍前两种运行 ......

模式 Standalone Spark local更新时间 2024-01-07

spark小记

Spark介绍 1、Spark 是一种由 Scala 语言开发的基于内存的快速/通用/可扩展的大数据分析计算引擎。 2、Spark Core中提供了Spark最基础与最核心的功能。Spark SQL 是 Spark 用来操作结构化数据的组件。 3、MLlib 是 Spark 提供的一个机器学习算法库 ......

小记 spark更新时间 2024-01-06

hive小记

Hive介绍 1、Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架 2、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能 3、Hive处理的数据存储在HDFS，底层实现是MapReduce，执行 ......

小记 hive更新时间 2024-01-06

搭建MySQL集群-1(搭建单节点MySQL)

突发奇想，想做一个微信小程序，于是买了云服务器，准备尝试自己搭建MySQL集群。系统版本：Ubuntu 22.04.3 LTS 一、通过apt包管理器安装MySQL。 sudo apt install mysql-server 二、安装成功后，mysql-service会启动。可用以下命令查看： ......

MySQL 节点集群更新时间 2024-01-06

Elasticsearch专栏集群管理

Elasticsearch 集群管理简介 Elasticsearch 是一个开源的分布式搜索和分析引擎，用于处理大规模的结构化和非结构化数据。集群管理是确保 Elasticsearch 在生产环境中高效运行的关键任务之一。集群基础知识节点（Nodes）： Elasticsearch 集群由一个 ......

集群 Elasticsearch 专栏更新时间 2024-01-06

Elasticsearch专栏集群分片管理

Elasticsearch 集群分片管理简介 Elasticsearch 是一个分布式搜索和分析引擎，数据在集群中被分割成多个分片，以实现高性能和可伸缩性。在管理 Elasticsearch 集群时，分片的合理分配和监控是至关重要的。分片基础知识主分片（Primary Shard）：每个索引 ......

集群 Elasticsearch 专栏更新时间 2024-01-06

共1910篇 :3/64页 首页上一页123456下一页尾页