长文spark

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接：https://tecdat.cn/?p=34286 原文出处：拓端数据部落公众号分析师：Shichao Zhong 项目挑战如何处理庞大的数据集，并对数据进行可视化展示；在后续分析中特征选择是重点之一，要根据事实情况和数据易处理的角度来筛选变量解决方案任务/目标根据已有的车祸数 ......

发生率车祸 MapReduce 因素 Python更新时间 2023-11-18

万字长文：从 C# 入门学会 RabbitMQ 消息队列编程

RabbitMQ 教程目录RabbitMQ 教程RabbitMQ 简介安装与配置安装 RabbitMQ发布与订阅模型生产者、消费者、交换器、队列多工作队列交换器类型DirectFanoutTopic交换器绑定交换器消费者、消息属性Qos 、拒绝接收消息确认模式消息持久化消息 TTL 时间队列 TT ......

长文队列 RabbitMQ 消息更新时间 2023-11-17

【万字长文】前端性能优化实践

从一个假死页面引发的思考：作为前端开发，除了要攻克页面难点，也要有更深的自我目标，性能优化是自我提升中很重要的一环；在前端开发中，会偶遇到页面假死的现象，是因为当js有大量计算时，会造成 UI 阻塞，出现界面卡顿、掉帧等情况，严重时会出现页面卡死的情况； ......

长文前端性能更新时间 2023-11-14

Spark优化

意识篇类型转换优化前： val extractFields: Seq[Row] => Seq[(String, Int)] = { (rows: Seq[Row]) => { var fields = Seq[(String, Int)]() rows.map(row => { fields = ......

Spark更新时间 2023-11-11

基于Spark对消费者行为数据进行数据分析开发案例

原创/朱季谦本文适合入门Spark RDD的计算处理。在日常工作当中，经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例，这些文件一般以csv或者txt文件格式存在。例如，存在这样一份消费者行为数据，字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支 ......

数据数据分析消费者案例行为更新时间 2023-11-10

javaapi、spark、flink 创建Iceberg表，hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中，元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......

javaapi Iceberg impala flink spark更新时间 2023-11-02

spark代码示例---explode()炸裂函数使用

示例函数 explode 代码 spark更新时间 2023-11-02

spark由于shuffle中read过大造成netty申请DirectMemor异常（转）

1.报错日志： WARN TaskSetManager: Lost task 29.0 in stage 22.0 (TID 1851, wn108-cdlcns.bjduloineequ3adfbkrpgi4p2c.shax.internal.chinacloudapp.cn, executo ......

DirectMemor shuffle spark netty read更新时间 2023-11-02

任意选择以下一种方式通过Spark API 编写一个独立应用程序。

任意选择以下一种方式通过Spark API 编写一个独立应用程序。（一）使用sbt对Scala独立应用程序进行编译打包（二）使用Maven对Java独立应用程序进行编译打包（三）使用Maven对Scala独立应用程序进行编译打包 ......

应用程序方式程序 Spark API更新时间 2023-10-29

万字长文 | 业内 MySQL 线程池主流方案详解 - MariaDB/Percona/AliSQL/TXSQL/MySQL企业版

作者：卢文双资深数据库内核研发本文首发于 2023-05-04 22:07:40 http://dbkernel.com/2023/05/04/mysql-threadpool-main-solutions-details/# 本文主要从功能层面对比 percona-server、mariadb ......

长文 MySQL 线程业内主流更新时间 2023-10-29

Spark3.3.2安装部署

选择你想要的版本镜像链接https://mirrors.aliyun.com/apache/spark/?spm=a2c6h.25603864.0.0.5d1b590eLwbWr2 sudo tar -zxvf spark-3.3.2-bin-without-hadoop.tgz -C /usr/ ......

Spark3 Spark 3.2更新时间 2023-10-28

每日随笔——使用 Spark Shell 编写代码

安装完spark之后，学习使用Spark Shell 编写代码默认spark已经安装成功，且环境变量已经配置完成启动Spark Shell cd /export/server/spark bin/spark-shell 加载文本文件 val textFile = sc.textFile("fil ......

随笔代码 Spark Shell更新时间 2023-10-28

每日随笔——Spark

今天学习如何使用Spark技术。一、下载spark 下载spark-3.4.0-bin-without-hadoop.tgz文件，百度网盘链接：https://pan.baidu.com/s/181shkgg-i0WEytQMqeeqxA（提取码：9ekc ）二、安装hadoop和Javajdk ......

随笔 Spark更新时间 2023-10-28

spark on k8s环境下不重新打镜像实现celeborn client或其他底层jar包升级

博客园首发，转载请注明地址：https://www.cnblogs.com/tzxxh/p/17792469.html 前言 Apache Kyuubi 是一个分布式和多租户网关，用于在数据仓库和湖仓上提供无服务器 SQL。Apache Celeborn 是一个Remote Shuffle Serv ......

底层 celeborn 镜像环境 client更新时间 2023-10-27

spark使用记录

单词统计的示例 1：客户端登录 2：使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce ......

spark更新时间 2023-10-27

spark学习

Spark运行特点：每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行Task。这种Application隔离机制是有优势的，无论是从调度角度看（每个Driver调度他自己的任务），还是从运行角度看（来自不同Applicatio ......

spark更新时间 2023-10-26

火山引擎 LAS Spark 升级：揭秘 Bucket 优化技术

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群文章介绍了 Bucket 优化技术及其在实际业务中的应用，包括 Spark Bucket 的基本原理，重点阐述了火山引擎湖仓一体分析服务 LAS（下文以 LAS 指代）Spark 对 Bucket 优化的功能增强， ......

火山引擎 Bucket Spark 技术更新时间 2023-10-25

【1】基于docker搭建hadoop+hive+spark+hbase+zookeeper+scale集群

1、设置主机上的虚拟缓存当本地内存不足时，可以使用虚拟内存将一些内存数据转移到硬盘上，从而扩展计算机的内存容量。这样可以让计算机运行更复杂、更占用内存的程序，不会出现内存不足的情况。减轻物理存储器不足的压力，设置虚拟内存可以在内存不够的情况下将缓存一时放在硬盘上，解决内存不足问题。通过虚拟内存， ......

集群 zookeeper docker hadoop hbase更新时间 2023-10-24

基于docker容器，搭建hadoop+spark+hive+hbase+Zookeeper Scala集群

1.安装Docker和Docker Compose 2.下载镜像 docker pull bde2020/hadoop-base:2.0.0-hadoop3.2.1-java8 docker pull bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8 d ......

集群容器 Zookeeper docker hadoop更新时间 2023-10-24

虚拟机的Spark安装步骤

相关代码截图 //解压压缩包 tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz //配置环境变量 vi /etc/profile //添加内容 # spark $PARK_HOME=/export/server/spark-3.2.4-bin-hadoop3.2 exp ......

步骤 Spark更新时间 2023-10-23

报错Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 768047b9-c7f7-459f-9220-5d8d7bdabefe)

在执行hive on spark的时候上面的错误可能有以下几种问题： 1.版本问题不匹配 2.时间参数问题设置的参数太小了 3.在hive-site.xml文件中没有配置spark 的home 我的问题属于第一个问题导致没有跑成功当时也在想是不是内存出现了问题 ......

Failed Spark HiveException exception 7bdabefe更新时间 2023-10-22

共264篇 :3/9页 首页上一页123456下一页尾页

526互联