集群spark hive

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行,不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射,很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的,改进挺多。可通过scala编程(第四版)学习。 hadoop 3.2.1 因为windows hado ......
环境 spark linux idea

Hive常见问题

Hive常见问题 1、hive创建数据库 在使用hive指令创建数据库时,指定创建位置 create database bigdata_demo1 location '/bigdata_29'; 在shell脚本中显示创建返回结果 但是在hdfs中并未找到该数据库; 这里可能是bug,于是我们通过第 ......
常见问题 常见 问题 Hive

实验七:Spark机器学习库Mtlib编程实践

1、数据导入 导入相关的jar包: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......
机器 Spark Mtlib

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象 当使用client模式连接Spark的standalone集群时,报错所有的spark master的节点都没有回应。 二、问题排查思路 通过client端的日志产看没有什么有价值的信息,需要看下spark端的master的日志,docker logs spark- ......
集群 Standalone 版本 问题 Spark

Linux 部署redis集群(三主三从)

1、由于redis是C语言编写的,安装之前需要保证有gcc的环境配置 首先使用命令,查看gcc版本,若已经存在则跳过gcc的安装:gcc -v 若不存在gcc,则使用命令安装gcc:yum install gcc-c++ 2、下载redis源文件 mkdir /usr/local/redis cd ......
集群 Linux redis

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述 当达梦的表格设计使用number数据类型时,如果没有指定精确,使用默认值,如下图所示 则在读取该表格数据时,报错如下: 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......
负数 精度 解决方案 Decimal 数据库

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 ......
架构 Spark YARN On

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。  Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式:生产环境 ......
模式 Spark YARN on

Prometheus监控k8s集群节点主机内存/CPU使用率

CPU使用率: (1 - avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)) *100 说明: container_cpu_usage_seconds_total 该容器服务针对每个CPU累计消耗的CPU时间。如果有多个 ......
使用率 节点 集群 Prometheus 内存

TiDB 多集群告警监控-中章-融合多集群 Grafana

author:longzhuquan 背景 随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消 ......
集群 Grafana TiDB

TiDB 在单机上模拟部署生产环境集群

参考地址:https://docs.pingcap.com/zh/tidb/dev/quick-start-with-tidb 前提条件 硬件要求 开始部署 TiDB 集群前,准备一台部署主机,确保其软件满足需求: 推荐安装 CentOS 7.3 及以上版本 运行环境可以支持互联网访问,用于下载 T ......
集群 单机 环境 TiDB

k8s集群手动更换证书过程

第一步部分老的证书 1. 生成etcd证书,更换etcd证书,重启etcd服务。2. 替换/etc/calico的证书为etcd的证书重启calico-node服务。3. 更换calico的pod的证书为新生成的calico-node和calico-kube-controllers.4. 更换k8s ......
集群 手动 证书 过程 k8s

Spark - spark on yarn 的作业提交流程

客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端再次向ResourceManager提交作业执 ......
流程 Spark spark yarn on

Spark - 面试题

Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......
Spark

Hive - 面试题

什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语 ......
Hive

Kubernetes 多集群网络方案系列 1 -- Submariner 介绍

https://cloudpods.csdn.net/657811c5b8e5f01e1e449b3e.html Kubernetes 多集群网络方案系列 1 -- Submariner 介绍 本文首先介绍了 Submariner 的架构,包括 Broker、Gateway Engine、Route ......
集群 Kubernetes Submariner 方案 网络

Kubernetes 多集群网络方案系列 2 -- Submariner 监控

https://juejin.cn/post/7222575963565015096 Kubernetes 多集群网络方案系列 2 -- Submariner 监控 2023-04-16 62 阅读10分钟 Submariner 是一个用于连接 Kubernetes 集群的跨集群网络解决方案,可以实 ......
集群 Kubernetes Submariner 方案 网络

一篇文章彻底搞懂TiDB集群各种容量计算方式

背景 TiDB 集群的监控面板里面有两个非常重要、且非常常用的指标,相信用了 TiDB 的都见过: Storage capacity:集群的总容量 Current storage size:集群当前已经使用的空间大小 当你准备了一堆服务器,经过各种思考设计部署了一个 TiDB 集群,有没有想过这两个 ......
集群 篇文章 容量 方式 TiDB

K8s 多集群实践思考和探索

https://www.cnblogs.com/vivotech/p/17684105.html 作者:vivo 互联网容器团队 - Zhang Rong 本文主要讲述了一些对于K8s多集群管理的思考,包括为什么需要多集群、多集群的优势以及现有的一些基于Kubernetes衍生出的多集群管理架构实践 ......
集群 K8s K8 8s

22-安全机制:Kubernete 如何保障集群安全?

(https://rancher.com/blog/2019/2019-01-17-101-more-kubernetes-security-best-practices/) 你好,我是正范。 Kubernetes 作为一个分布式集群的管理工具,提供了非常强大的可扩展能力,可以帮助你管理容器,实现业 ......
集群 Kubernete 机制 22

23-最后的防线:怎样对 Kubernete 集群进行灾备和恢复?

Kubernetes 隐藏了所有容器编排的复杂细节,让我们可以专注在应用本身,而无须过多关注如何去做部署和维护。此外,Kubernetes 还支持多副本,可以保证我们业务的高可用性。而对于集群本身而言,我们一样也要保证其高可用性,你可以参考官方文档:利用 Kubeadm 来创建高可用集群。 但是这些 ......
集群 防线 Kubernete 23

18-权限分析:Kubernete 集群权限管理那些事儿

你好,我是正范。 通过前面的课程学习,你已经学会了使用kubectl命令行,或者直接发送 REST 请求,以及使用各种语言的 client 库来跟 APIServer 进行交互。那么你是否知道在这其中Kubernetes 是如何对这些请求进行认证、授权的呢?这节课,我们就来一探究竟。 任何请求访问 ......
权限 集群 事儿 Kubernete 18

19-资源限制:如何保障你的 Kubernete 集群资源不会被打爆

前面的课时中,我们曾提到通过 HPA 控制业务的资源水位,通过 ClusterAutoscaler 自动扩充集群的资源。但如果集群资源本身就是受限的情况下,或者一时无法短时间内扩容,那么我们该如何控制集群的整体资源水位,保障集群资源不会被“打爆”? 今天我们就来看看 Kubernetes 中都有哪些 ......
资源 集群 Kubernete 19

03-集群搭建:手把手教你玩转 Kubernete 集群搭建

通过上一节课的学习,我们已经对 Kubernetes 的架构有了清楚的认识。但是到现在还没有和 Kubernetes 集群真正打过交道,所以你可能有一种“不识庐山真面目”的云里雾里的感觉。那么本节课,我们就来学习如何搭建 Kubernetes 集群,开启探索 Kubernetes 的第一站。 在线 ......
集群 Kubernete 03

【K8S系列】快速初始化⼀个最⼩集群

序言 走得最慢的人,只要不丧失目标,也比漫无目的地徘徊的人走得快。 文章标记颜色说明: 黄色:重要标题 红色:用来标记结论 绿色:用来标记一级重要 蓝色:用来标记二级重要 希望这篇文章能让你不仅有一定的收获,而且可以愉快的学习,如果有什么建议,都可以留言和我交流 写在前面 k8s作为⼀个相对⽐较复杂 ......
集群 K8S K8 8S

k8s集群Node节点管理:节点信息查看及节点label标签管理

k8s集群Node节点管理:节点信息查看及节点label标签管理 Kubernetes集群Node管理 一、查看集群信息 [root@k8s-master1 ~]# kubectl cluster-info Kubernetes control plane is running at https:/ ......
节点 集群 标签 label 信息

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行:在同一时间内,有多少个tes k在同时运行并行度:并行能力的设置比如设置并行度6,其实是6个tast才并行在跑在有了6个tast并行的前提下,rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......
spark 11

开源大数据集群部署(二)集群基础环境实施准备

作者:櫰木 环境准备 本次使用到的二进制软件包目录为:系统初始化前提是操作系统已完成安装、各个主机之间网络互通,系统常用命令已安装,本默认这些前提条件已具备,不在阐述。 1 主机环境初始化 安装centos系统完成后需要对主机进行初始化配置和验证工作,在所有主机上(hd1.dtstack.com-h ......
集群 环境 基础 数据

TiDB 多集群告警监控-初章-监控融合、自动告警处理

author:longzhuquan 背景 随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消 ......
集群 TiDB

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another ......
hadoop spark
共1910篇  :1/64页 首页上一页1下一页尾页