长文spark

万字长文详解Java线程池面试题

大家好,我是王有志。今天是《面霸的自我修养》第 6 篇文章,我们一起来看看面试中会问到哪些关于线程池的问题吧。 ......
长文 线程 Java

Spark 使用遇到的问题

Spark 使用遇到的问题 环境信息 IDEA版本:Build #IU-232.8660.185, built on July 26, 2023 系统版本:Macos 14.0 Docker版本: 一、Docker运行Spark集群 这里使用bitnami发行的spark image github文 ......
问题 Spark

Spark相关学习之基础认识

1、Spark相关概念介绍 是一个分布式计算框架; 2、Spark的框架模块 3、Spark运行模式 Spark总结概述: 4、Local模式 ......
基础 Spark

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......
算子 wordCount 方法 Spark

MapReduce和Spark读取HBase快照表

1.概述 随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(Snapshot Table)的数据。快照表是一种记录某一时刻系统状态的表格,通过Ma ......
快照 MapReduce HBase Spark

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......
wordCount 环境 spark

大数据 | Spark基本使用示例

欢迎参观我的博客,一个Vue 与 SpringBoot结合的产物:https://poetize.cn 博客:https://gitee.com/littledokey/poetize-vue2.git 聊天室:https://gitee.com/littledokey/poetize-im-vue ......
示例 数据 Spark

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。 训练数据,第一个值是标签,下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......
算法 Spark svm

本地测试Spark的逻辑回归算法

本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。 数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 ......
算法 逻辑 Spark

万字长文深度解读Java线程池,硬核源码分析

前言 本文将深入分析Java线程池的源码,包括线程池的创建、任务提交、工作线程的执行和线程池的关闭等过程。通过对线程池源码的解析,我们能够更好地理解线程池的原理和机制,为我们在实际开发中合理使用线程池提供指导。 文章内容较长,建议找个安静的环境慢慢细读,由于线程池涉及的内容比较多,需要至少熟悉以下知 ......
长文 线程 源码 深度 Java

图解Spark排序算子sortBy的核心源码

原创/朱季谦 一、案例说明 以前刚开始学习Spark的时候,在练习排序算子sortBy的时候,曾发现一个有趣的现象是,在使用排序算子sortBy后直接打印的话,发现打印的结果是乱序的,并没有出现完整排序。 例如,有一个包含多个(姓名,金额)结构的List数据,将这些数据按照金额降序排序时,代码及打印 ......
算子 源码 核心 sortBy Spark

万字长文教你实现华为云IoT+OpenHarmony智能家居开发

基于OpenHarmony和华为云平台打造的智能家居设备,分别为智能门锁,储物精灵 NFC版,储物精灵Pro版三个设备。 ......
长文 智能家居 OpenHarmony 智能 IoT

Spark基础——Scala1.3

For循环控制 1.To 范围数据循环 to <-规定to 前后闭合,如i<- 1 to 10,则输出包括1到10的所有数 for (i<- 1 to 12){ println("她喜欢我"+i+"次")//输出结果为1-12所有数 2.until 前闭合后开 i<-1 until 10 相当于输出 ......
基础 Scala1 Spark Scala

Spark基础——scala1.2

if/if else/StdIn.readShort方法运用 StdIn.readShort适用于整数数据类型 println("请输入年龄") var age=StdIn.readShort//交互式 if (age<18){ println("小屁孩") }else{ println("大人") ......
基础 scala1 Spark scala

Spark基础——scala基础1.0

定义对象和强制转化 1.定义规则 var 变量名 :变量类型 =初始值 var i :Int=10 var j :Double=3.33 //var 变量名 :变量类型 =初始值 val o:Int=2 //val 常量名 :变量类型 =初始值 变量声明时,必须要有初始值 i=20 //var修饰的 ......
基础 Spark scala 1.0

4000字干货长文,3大角度,带你拆分爆款视频

如果你是一名还准备入行的小白,请你务必看完这篇长文,它将带你快速搞懂如何拆解短视频。 如果你是一名每天浪费大量“灵魂时间”刷短视频的普通人,更请你务必看完这篇长文,它将带你摆脱思考的懒惰,带你在不断削弱思考能力的短视频时代杀出一条血路。 如果你是一名经验丰富的运营,也请你务必看完这篇长文,它将尝试帮 ......
长文 干货 角度 视频 4000

spark2.4.4安装

1、环境准备: 下载spark-2.4.4-bin-hadoop2.7.tgz 上传安装包到Linux中 解压安装包 tar -zxf spark-2.4.4-bin-hadoop2.7.tgz -C /hadoop/app 2、配置环境 2.1修改hadoop中yarn-site.xml <pro ......
spark2 spark 4.4

开发笔记-大数据技术栈-spark基础

Spark是一个快速、通用、可扩展的大数据分析引擎,是集批处理、实时流处理、交互式查询、机器学习与图计算为一体的大数据开源项目。 一、对比MapReduce 1.Hadoop中的job处理流程: 》从hdfs读取数据 》 在map阶段,执行mapper function,然后split到磁盘 》在r ......
基础 笔记 数据 spark 技术

Ubuntu部署Spark集群

## 前期准备 ### 系统及软件版本说明 本章操作中所使用的相关操作系统及软件版本如下: | 软件 | 版本 | | | | | 操作系统 | Ubuntu 14.04.1 | | JDK | 1.8.0 | | Hadoop | 2.7.3 | | Spark | 2.2.0 | ### JDK ......
集群 Ubuntu Spark

CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自 `0.10.0` 版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debez ......
DeltaStreamer Serverless Apache Spark Hudi

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230903170841666-247436382.png) 原创/朱季谦 第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进。 ### 一 ......

图解Spark Graphx实现顶点关联邻接顶点的函数原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230901005349386-1258559942.png) ## 一、场景案例 在一张社区网络里,可能需要查询出各个顶点邻接关联的顶点集合,类似查询某个人关系比较 ......
顶点 函数 原理 Graphx Spark

spark教程-1

# scala基本操作 ``` scala> val input=sc.textFile("C:\\Users\\gwj\\Desktop\\cont.txt") input: org.apache.spark.rdd.RDD[String] = C:\Users\gwj\Desktop\cont. ......
教程 spark

3.2.0 终极预告!云原生支持新增 Spark on k8S 支持

![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230828190238753-1379880889.png) 视频贡献者 | 王维饶 视频制作者 | 聂同学 编辑整理 | Debra Chen > Apache ......
终极 Spark k8S 8S on

8.21-8.27学习总结博客七:Spark机器学习与实时处理

博客题目:学习总结七:Spark机器学习与实时处理入门内容概要:学习使用Spark进行机器学习和实时数据处理的基本知识,了解Spark的机器学习库和实时处理框架。学习资源:推荐的Spark机器学习和实时处理教程、案例和学习资源。实践内容:通过编写Spark应用程序,实践使用Spark进行机器学习和实 ......
实时 机器 Spark 博客 8.21

Spark任务提交到Yarn状态一直是Accepted

## 现象 今天提交 Spark 任务到 Yarn 集群,但是任务状态一直是 Accepted: ``` 23/08/25 14:59:55 INFO Client: Application report for application_1692971614101_0018 (state: ACCE ......
Accepted 状态 任务 Spark Yarn

Hadoop 和 Spark 简介

# Hadoop 和 Spark 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 过去一直是大数据的经典解决方案,它包含两个部分:Hadoop HDFS 和 Ha ......
简介 Hadoop Spark

万字长文硬核AQS源码分析

阅读本文前,需要储备的知识点如下,点击链接直接跳转。 [java线程详解](https://www.cnblogs.com/star95/p/17583193.html) [Java不能操作内存?Unsafe了解一下](https://www.cnblogs.com/star95/p/1761943 ......
长文 源码 AQS

apache spark connect 试用

spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa ......
connect apache spark

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的,在RDD转换阶段,只会记录该转换逻辑而不会执行,只有在遇到行动算子时,才会触发真正的运 ......
惰性 Spark RDD