长文spark

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接:https://tecdat.cn/?p=34286 原文出处:拓端数据部落公众号 分析师:Shichao Zhong 项目挑战 如何处理庞大的数据集,并对数据进行可视化展示;在后续分析中特征选择是重点之一,要根据事实情况和数据易处理的角度来筛选变量 解决方案 任务/目标 根据已有的车祸数 ......
发生率 车祸 MapReduce 因素 Python

万字长文:从 C# 入门学会 RabbitMQ 消息队列编程

RabbitMQ 教程 目录RabbitMQ 教程RabbitMQ 简介安装与配置安装 RabbitMQ发布与订阅模型生产者、消费者、交换器、队列多工作队列交换器类型DirectFanoutTopic交换器绑定交换器消费者、消息属性Qos 、拒绝接收消息确认模式消息持久化消息 TTL 时间队列 TT ......
长文 队列 RabbitMQ 消息

【万字长文】前端性能优化实践

从一个假死页面引发的思考: 作为前端开发,除了要攻克页面难点,也要有更深的自我目标,性能优化是自我提升中很重要的一环; 在前端开发中,会偶遇到页面假死的现象, 是因为当js有大量计算时,会造成 UI 阻塞,出现界面卡顿、掉帧等情况,严重时会出现页面卡死的情况; ......
长文 前端 性能

Spark优化

意识篇 类型转换 优化前: val extractFields: Seq[Row] => Seq[(String, Int)] = { (rows: Seq[Row]) => { var fields = Seq[(String, Int)]() rows.map(row => { fields = ......
Spark

基于Spark对消费者行为数据进行数据分析开发案例

原创/朱季谦 本文适合入门Spark RDD的计算处理。 在日常工作当中,经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例,这些文件一般以csv或者txt文件格式存在。例如,存在这样一份消费者行为数据,字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支 ......
数据 数据分析 消费者 案例 行为

javaapi、spark、flink 创建Iceberg表,hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中,元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是 在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......
javaapi Iceberg impala flink spark

spark代码示例---explode()炸裂函数使用

数据结构,及bean的结构 root |-- eventName: string (nullable = true) |-- itmeList: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- d ......
示例 函数 explode 代码 spark

spark由于shuffle中read过大造成netty申请DirectMemor异常(转)

1.报错日志: ​ WARN TaskSetManager: Lost task 29.0 in stage 22.0 (TID 1851, wn108-cdlcns.bjduloineequ3adfbkrpgi4p2c.shax.internal.chinacloudapp.cn, executo ......
DirectMemor shuffle spark netty read

任意选择以下一种方式通过Spark API 编写一个独立应用程序。

任意选择以下一种方式通过Spark API 编写一个独立应用程序。 (一)使用sbt对Scala独立应用程序进行编译打包 (二)使用Maven对Java独立应用程序进行编译打包 (三)使用Maven对Scala独立应用程序进行编译打包 ......
应用程序 方式 程序 Spark API

万字长文 | 业内 MySQL 线程池主流方案详解 - MariaDB/Percona/AliSQL/TXSQL/MySQL企业版

作者:卢文双 资深数据库内核研发 本文首发于 2023-05-04 22:07:40 http://dbkernel.com/2023/05/04/mysql-threadpool-main-solutions-details/# 本文主要从功能层面对比 percona-server、mariadb ......
长文 MySQL 线程 业内 主流

Spark3.3.2安装部署

选择你想要的版本 镜像链接https://mirrors.aliyun.com/apache/spark/?spm=a2c6h.25603864.0.0.5d1b590eLwbWr2 sudo tar -zxvf spark-3.3.2-bin-without-hadoop.tgz -C /usr/ ......
Spark3 Spark 3.2

每日随笔——使用 Spark Shell 编写代码

安装完spark之后,学习使用Spark Shell 编写代码 默认spark已经安装成功,且环境变量已经配置完成 启动Spark Shell cd /export/server/spark bin/spark-shell 加载文本文件 val textFile = sc.textFile("fil ......
随笔 代码 Spark Shell

每日随笔——Spark

今天学习如何使用Spark技术。 一、下载spark 下载spark-3.4.0-bin-without-hadoop.tgz文件,百度网盘链接:https://pan.baidu.com/s/181shkgg-i0WEytQMqeeqxA(提取码:9ekc ) 二、安装hadoop和Javajdk ......
随笔 Spark

spark on k8s环境下不重新打镜像实现celeborn client或其他底层jar包升级

博客园首发,转载请注明地址:https://www.cnblogs.com/tzxxh/p/17792469.html 前言 Apache Kyuubi 是一个分布式和多租户网关,用于在数据仓库和湖仓上提供无服务器 SQL。Apache Celeborn 是一个Remote Shuffle Serv ......
底层 celeborn 镜像 环境 client

spark使用记录

单词统计的示例 1:客户端登录 2:使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce ......
spark

spark学习

Spark运行特点: 每个Application获取专属的executor进程,该进程在Application期间一直驻留,并以多线程方式运行Task。这种Application隔离机制是有优势的,无论是从调度角度看(每个Driver调度他自己的任务),还是从运行角度看(来自不同Applicatio ......
spark

火山引擎 LAS Spark 升级:揭秘 Bucket 优化技术

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 文章介绍了 Bucket 优化技术及其在实际业务中的应用,包括 Spark Bucket 的基本原理,重点阐述了火山引擎湖仓一体分析服务 LAS(下文以 LAS 指代)Spark 对 Bucket 优化的功能增强, ......
火山 引擎 Bucket Spark 技术

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存 当本地内存不足时,可以使用虚拟内存将一些内存数据转移到硬盘上,从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序,不会出现内存不足的情况。减轻物理存储器不足的压力,设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上,解决内存不足问题。 通过虚拟内存, ......
集群 zookeeper docker hadoop hbase

基于docker容器,搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......
集群 容器 Zookeeper docker hadoop

虚拟机的Spark安装步骤

相关代码截图 //解压压缩包 tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz //配置环境变量 vi /etc/profile //添加内容 # spark $PARK_HOME=/export/server/spark-3.2.4-bin-hadoop3.2 exp ......
步骤 Spark

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候 上面的错误可能有以下几种问题: 1.版本问题 不匹配 2.时间参数问题 设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功 当时也在想是不是内存出现了问题 ......

【大数据】Spark On Yarn 理解(图文)

基本架构 1:ResourceManager(资源管理器):ResourceManager是YARN的核心组件,负责管理和分配集群资源。它接收来自Spark应用程序的资源请求,并根据可用资源情况进行分配和调度。 2:NodeManager(节点管理器):NodeManager是每个节点上的代理程序, ......
图文 数据 Spark Yarn On

万字长文:拆解银行数智运营之困!

近日,由轻金融特别策划并推出的采访报道中,轻金融与京东金融实战团队进行了一次深入交流,双方深度解析了银行数智运营体系之破局、开局、布局问题。 ......
长文 银行

【大数据】Spark部署与启动(文档)

Python 环境准备 Anaconda3: https://pan.baidu.com/s/1e4Wx48RsW0Pm_saotxTW4A?pwd=66ki [root@test1 ~]# cd /export/ [root@test1 export]# rz # 上传源文件包 [root@tes ......
文档 数据 Spark

LAS Spark+云原生:数据分析全新解决方案

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着数据规模的迅速增长和数据处理需求的不断演进,云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代,企业面临着海量数据的挑战和机遇,而构建可扩展、灵活且高效的数据分析平台成为了迫切的需求。 文章主要 ......

spark sql使用--创建SparkDataFrame

Spark SQL模块 这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。 在RDD阶段,程序的执行入口对象是: SparkContext 在Spark 2.0后,推出了SparkSession对象,作为Spark编码的统一入 ......
SparkDataFrame spark sql

Spark入门指南:从基础概念到实践应用全解析

在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中,Apache Spark 以其独特的优势脱颖而出 ......
入门指南 概念 基础 指南 Spark

为什么物联网大数据平台,使用TDengine,可以不要Redis、Kafka和Spark等软件?

为什么物联网大数据平台,使用TDengine,可以不要Redis、Kafka和Spark等软件? - TDengine | 涛思数据 (taosdata.com) TDengine是一高效的时序空间大数据处理引擎,因为充分利用物联网、车联网、工业互联网等场景的数据特点并做了很多优化,因此性能上远胜通 ......
TDengine 数据 Redis Kafka Spark

LAS Spark 在 TPC-DS 的优化揭秘

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Spark 通过采 ......
TPC-DS Spark LAS TPC DS

1. Spark RDD

一、Spark RDD 1. RDD是什么 RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的抽象,本质上是分布在多个节点上的数据集合。 弹性是指当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指一个数据集 ......
Spark RDD