集群spark hive

spark 3.x idea linux远程开发环境搭建

依赖包 jdk 8或11都行，不要到jdk 17 jdk 17第一个问题是jdk内部类默认不允许反射，很多配置要改。 scala 2.13 scala 2.13版本是为scala 3.0版本准备的，改进挺多。可通过scala编程（第四版）学习。 hadoop 3.2.1 因为windows hado ......

环境 spark linux idea更新时间 2024-01-13

Hive常见问题

Hive常见问题 1、hive创建数据库在使用hive指令创建数据库时，指定创建位置 create database bigdata_demo1 location '/bigdata_29'; 在shell脚本中显示创建返回结果但是在hdfs中并未找到该数据库；这里可能是bug，于是我们通过第 ......

常见问题常见问题 Hive更新时间 2024-01-13

实验七：Spark机器学习库Mtlib编程实践

1、数据导入导入相关的jar包： import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import org ......

机器 Spark Mtlib更新时间 2024-01-13

Spark版本不兼容导致Standalone集群无法连接问题

一、Spark版本不一致报错现象当使用client模式连接Spark的standalone集群时，报错所有的spark master的节点都没有回应。二、问题排查思路通过client端的日志产看没有什么有价值的信息，需要看下spark端的master的日志，docker logs spark- ......

集群 Standalone 版本问题 Spark更新时间 2024-01-13

Linux 部署redis集群（三主三从）

1、由于redis是C语言编写的，安装之前需要保证有gcc的环境配置首先使用命令，查看gcc版本，若已经存在则跳过gcc的安装：gcc -v 若不存在gcc，则使用命令安装gcc：yum install gcc-c++ 2、下载redis源文件 mkdir /usr/local/redis cd ......

集群 Linux redis更新时间 2024-01-13

Spark读写达梦数据库报错Decimal精度为负数以及解决方案

一、Spark读取DM数据库问题描述当达梦的表格设计使用number数据类型时，如果没有指定精确，使用默认值，如下图所示则在读取该表格数据时，报错如下： 24/01/12 10:43:48 ERROR Node: [47db01a8b6ff47e7840cb0a777033721]:compon ......

负数精度解决方案 Decimal 数据库更新时间 2024-01-13

Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范，YARN只负责资源的管理和调度，运行哪种应用程序由用户自己决定，因此可能在YARN上同时运行MapReduce程序和Spark程序，YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中，共享集群存 ......

架构 Spark YARN On更新时间 2024-01-12

Spark on YARN的两种部署模式

Client模式和Cluster模式最最本质的区别是：Driver程序运行在哪里。  Client模式：学习测试时使用，生产不推荐(要用也可以,性能略低,稳定性略低) 1.Driver运行在Client上,和集群的通信成本高 2.Driver输出结果会在客户端显示  Cluster模式：生产环境 ......

模式 Spark YARN on更新时间 2024-01-12

Prometheus监控k8s集群节点主机内存/CPU使用率

CPU使用率： (1 - avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)) *100 说明： container_cpu_usage_seconds_total 该容器服务针对每个CPU累计消耗的CPU时间。如果有多个 ......

使用率节点集群 Prometheus 内存更新时间 2024-01-12

TiDB 多集群告警监控-中章-融合多集群 Grafana

author：longzhuquan 背景随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消 ......

集群 Grafana TiDB更新时间 2024-01-12

TiDB 在单机上模拟部署生产环境集群

参考地址：https://docs.pingcap.com/zh/tidb/dev/quick-start-with-tidb 前提条件硬件要求开始部署 TiDB 集群前，准备一台部署主机，确保其软件满足需求：推荐安装 CentOS 7.3 及以上版本运行环境可以支持互联网访问，用于下载 T ......

集群单机环境 TiDB更新时间 2024-01-12

k8s集群手动更换证书过程

第一步部分老的证书 1. 生成etcd证书，更换etcd证书，重启etcd服务。2. 替换/etc/calico的证书为etcd的证书重启calico-node服务。3. 更换calico的pod的证书为新生成的calico-node和calico-kube-controllers.4. 更换k8s ......

集群手动证书过程 k8s更新时间 2024-01-12

Spark - spark on yarn 的作业提交流程

客户端（Client）通过YARN的ResourceManager提交应用程序。在此过程中，客户端进行权限验证，生成Job ID和资源上传路径，并将这些信息返回给客户端。客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后，客户端再次向ResourceManager提交作业执 ......

流程 Spark spark yarn on更新时间 2024-01-11

Spark - 面试题

Spark是什么？答案：Apache Spark是一个快速、通用的大数据处理引擎，它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源，如HDFS、Hive、Cassandra等，并提供了丰富的API和工具集，用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 ......

Spark更新时间 2024-01-11

Hive - 面试题

什么是Hive？答案：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive的数据存储在哪里？答案：Hive的数据通常存储在Hadoop分布式文件系统（HDFS）上。Hive将HDFS上的数据映射成表格形式，并提供类似SQL的查询语 ......

Hive更新时间 2024-01-11

Kubernetes 多集群网络方案系列 1 -- Submariner 介绍

https://cloudpods.csdn.net/657811c5b8e5f01e1e449b3e.html Kubernetes 多集群网络方案系列 1 -- Submariner 介绍本文首先介绍了 Submariner 的架构，包括 Broker、Gateway Engine、Route ......

集群 Kubernetes Submariner 方案网络更新时间 2024-01-11

Kubernetes 多集群网络方案系列 2 -- Submariner 监控

https://juejin.cn/post/7222575963565015096 Kubernetes 多集群网络方案系列 2 -- Submariner 监控 2023-04-16 62 阅读10分钟 Submariner 是一个用于连接 Kubernetes 集群的跨集群网络解决方案，可以实 ......

集群 Kubernetes Submariner 方案网络更新时间 2024-01-11

一篇文章彻底搞懂TiDB集群各种容量计算方式

背景 TiDB 集群的监控面板里面有两个非常重要、且非常常用的指标，相信用了 TiDB 的都见过： Storage capacity：集群的总容量 Current storage size：集群当前已经使用的空间大小当你准备了一堆服务器，经过各种思考设计部署了一个 TiDB 集群，有没有想过这两个 ......

集群篇文章容量方式 TiDB更新时间 2024-01-11

K8s 多集群实践思考和探索

https://www.cnblogs.com/vivotech/p/17684105.html 作者：vivo 互联网容器团队 - Zhang Rong 本文主要讲述了一些对于K8s多集群管理的思考，包括为什么需要多集群、多集群的优势以及现有的一些基于Kubernetes衍生出的多集群管理架构实践 ......

集群 K8s K8 8s更新时间 2024-01-11

22-安全机制：Kubernete 如何保障集群安全？

（https://rancher.com/blog/2019/2019-01-17-101-more-kubernetes-security-best-practices/）你好，我是正范。 Kubernetes 作为一个分布式集群的管理工具，提供了非常强大的可扩展能力，可以帮助你管理容器，实现业 ......

集群 Kubernete 机制 22更新时间 2024-01-11

23-最后的防线：怎样对 Kubernete 集群进行灾备和恢复？

Kubernetes 隐藏了所有容器编排的复杂细节，让我们可以专注在应用本身，而无须过多关注如何去做部署和维护。此外，Kubernetes 还支持多副本，可以保证我们业务的高可用性。而对于集群本身而言，我们一样也要保证其高可用性，你可以参考官方文档：利用 Kubeadm 来创建高可用集群。但是这些 ......

集群防线 Kubernete 23更新时间 2024-01-11

18-权限分析：Kubernete 集群权限管理那些事儿

你好，我是正范。通过前面的课程学习，你已经学会了使用kubectl命令行，或者直接发送 REST 请求，以及使用各种语言的 client 库来跟 APIServer 进行交互。那么你是否知道在这其中Kubernetes 是如何对这些请求进行认证、授权的呢？这节课，我们就来一探究竟。任何请求访问 ......

权限集群事儿 Kubernete 18更新时间 2024-01-11

19-资源限制：如何保障你的 Kubernete 集群资源不会被打爆

前面的课时中，我们曾提到通过 HPA 控制业务的资源水位，通过 ClusterAutoscaler 自动扩充集群的资源。但如果集群资源本身就是受限的情况下，或者一时无法短时间内扩容，那么我们该如何控制集群的整体资源水位，保障集群资源不会被“打爆”？今天我们就来看看 Kubernetes 中都有哪些 ......

资源集群 Kubernete 19更新时间 2024-01-11

03-集群搭建：手把手教你玩转 Kubernete 集群搭建

通过上一节课的学习，我们已经对 Kubernetes 的架构有了清楚的认识。但是到现在还没有和 Kubernetes 集群真正打过交道，所以你可能有一种“不识庐山真面目”的云里雾里的感觉。那么本节课，我们就来学习如何搭建 Kubernetes 集群，开启探索 Kubernetes 的第一站。在线 ......

集群 Kubernete 03更新时间 2024-01-11

【K8S系列】快速初始化⼀个最⼩集群

序言走得最慢的人，只要不丧失目标，也比漫无目的地徘徊的人走得快。文章标记颜色说明：黄色：重要标题红色：用来标记结论绿色：用来标记一级重要蓝色：用来标记二级重要希望这篇文章能让你不仅有一定的收获，而且可以愉快的学习，如果有什么建议，都可以留言和我交流写在前面 k8s作为⼀个相对⽐较复杂 ......

集群 K8S K8 8S更新时间 2024-01-11

k8s集群Node节点管理：节点信息查看及节点label标签管理

k8s集群Node节点管理：节点信息查看及节点label标签管理 Kubernetes集群Node管理一、查看集群信息 [root@k8s-master1 ~]# kubectl cluster-info Kubernetes control plane is running at https:/ ......

节点集群标签 label 信息更新时间 2024-01-11

spark的学习1-11

大数据第36期打卡-Day9-p102-p106学习笔记Spark并行度spark的并行：在同一时间内，有多少个tes k在同时运行并行度：并行能力的设置比如设置并行度6，其实是6个tast才并行在跑在有了6个tast并行的前提下，rdd的分区被规划成6个分区Driver的两个组件DAG调度器工作内 ......

spark 11更新时间 2024-01-11

开源大数据集群部署（二）集群基础环境实施准备

作者：櫰木环境准备本次使用到的二进制软件包目录为：系统初始化前提是操作系统已完成安装、各个主机之间网络互通，系统常用命令已安装，本默认这些前提条件已具备，不在阐述。 1 主机环境初始化安装centos系统完成后需要对主机进行初始化配置和验证工作，在所有主机上（hd1.dtstack.com-h ......

集群环境基础数据更新时间 2024-01-11

TiDB 多集群告警监控-初章-监控融合、自动告警处理

author:longzhuquan 背景随着公司XC改造步伐的前进，越来越多的业务选择 TiDB，由于各个业务之间需要物理隔离，避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana，但对于运维来说几十套集群的监控、告警、巡检均需消 ......

集群 TiDB更新时间 2024-01-11

hadoop和spark

Spark和Hadoop是大数据处理领域两个重要的开源框架，它们之间既有紧密的联系也有显著的区别。联系：生态兼容：Spark可以无缝运行在Hadoop之上，利用Hadoop Distributed File System (HDFS) 进行数据存储，并且可以通过YARN（Yet Another ......

hadoop spark更新时间 2024-01-11

共1910篇 :1/64页 首页上一页1234下一页尾页