长文spark

万字长文详解Java线程池面试题

大家好，我是王有志。今天是《面霸的自我修养》第 6 篇文章，我们一起来看看面试中会问到哪些关于线程池的问题吧。 ......

长文线程 Java更新时间 2023-10-08

Spark 使用遇到的问题

Spark 使用遇到的问题环境信息 IDEA版本：Build #IU-232.8660.185, built on July 26, 2023 系统版本：Macos 14.0 Docker版本：一、Docker运行Spark集群这里使用bitnami发行的spark image github文 ......

问题 Spark更新时间 2023-10-08

Spark相关学习之基础认识

1、Spark相关概念介绍是一个分布式计算框架； 2、Spark的框架模块 3、Spark运行模式 Spark总结概述： 4、Local模式 ......

基础 Spark更新时间 2023-10-07

Spark算子实现wordCount的十种方法

//groupBy def wordCount1(sc:SparkContext) = { val rdd = sc.makeRDD(List("hello scala","hello spark")) val words: RDD[String] = rdd.flatMap(_.split(" " ......

算子 wordCount 方法 Spark更新时间 2023-10-03

MapReduce和Spark读取HBase快照表

1.概述随着大数据技术的不断发展，处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型，为处理大规模数据提供了有效的解决方案。在这篇博客中，我们将探讨如何使用MapReduce框架读取快照表（Snapshot Table）的数据。快照表是一种记录某一时刻系统状态的表格，通过Ma ......

快照 MapReduce HBase Spark更新时间 2023-09-30

spark环境部署之wordCount初体验

一.安装spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ......

wordCount 环境 spark更新时间 2023-09-27

大数据 | Spark基本使用示例

欢迎参观我的博客，一个Vue 与 SpringBoot结合的产物：https://poetize.cn 博客：https://gitee.com/littledokey/poetize-vue2.git 聊天室：https://gitee.com/littledokey/poetize-im-vue ......

示例数据 Spark更新时间 2023-09-27

本地测试Spark的svm算法

上一篇介绍了逻辑回归算法，发现分类效果不好，通过这次的svm发现是因为训练数据不行，于是网上找了部分训练数据，发现实际上分类效果还可以。训练数据，第一个值是标签，下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 ......

算法 Spark svm更新时间 2023-09-26

本地测试Spark的逻辑回归算法

本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法，效果不尽如人意。数据样例如下，竖杠前的0,1代表两种类型，后面逗号隔开的是两个特征，两个特征只要有一个大于等于0.6就会被分为1这一类，否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 ......

算法逻辑 Spark更新时间 2023-09-25

万字长文深度解读Java线程池，硬核源码分析

前言本文将深入分析Java线程池的源码，包括线程池的创建、任务提交、工作线程的执行和线程池的关闭等过程。通过对线程池源码的解析，我们能够更好地理解线程池的原理和机制，为我们在实际开发中合理使用线程池提供指导。文章内容较长，建议找个安静的环境慢慢细读，由于线程池涉及的内容比较多，需要至少熟悉以下知 ......

长文线程源码深度 Java更新时间 2023-09-19

图解Spark排序算子sortBy的核心源码

原创/朱季谦一、案例说明以前刚开始学习Spark的时候，在练习排序算子sortBy的时候，曾发现一个有趣的现象是，在使用排序算子sortBy后直接打印的话，发现打印的结果是乱序的，并没有出现完整排序。例如，有一个包含多个（姓名，金额）结构的List数据，将这些数据按照金额降序排序时，代码及打印 ......

算子源码核心 sortBy Spark更新时间 2023-09-18

万字长文教你实现华为云IoT+OpenHarmony智能家居开发

基于OpenHarmony和华为云平台打造的智能家居设备，分别为智能门锁，储物精灵 NFC版，储物精灵Pro版三个设备。 ......

长文智能家居 OpenHarmony 智能 IoT更新时间 2023-09-18

Spark基础——Scala1.3

For循环控制 1.To 范围数据循环 to <-规定to 前后闭合，如i<- 1 to 10,则输出包括1到10的所有数 for (i<- 1 to 12){ println("她喜欢我"+i+"次")//输出结果为1-12所有数 2.until 前闭合后开 i<-1 until 10 相当于输出 ......

基础 Scala1 Spark Scala更新时间 2023-09-11

Spark基础——scala1.2

if/if else/StdIn.readShort方法运用 StdIn.readShort适用于整数数据类型 println("请输入年龄") var age=StdIn.readShort//交互式 if (age<18){ println("小屁孩") }else{ println("大人") ......

基础 scala1 Spark scala更新时间 2023-09-11

Spark基础——scala基础1.0

定义对象和强制转化 1.定义规则 var 变量名：变量类型 =初始值 var i :Int=10 var j :Double=3.33 //var 变量名：变量类型 =初始值 val o:Int=2 //val 常量名：变量类型 =初始值变量声明时，必须要有初始值 i=20 //var修饰的 ......

基础 Spark scala 1.0更新时间 2023-09-11

4000字干货长文，3大角度，带你拆分爆款视频

如果你是一名还准备入行的小白，请你务必看完这篇长文，它将带你快速搞懂如何拆解短视频。如果你是一名每天浪费大量“灵魂时间”刷短视频的普通人，更请你务必看完这篇长文，它将带你摆脱思考的懒惰，带你在不断削弱思考能力的短视频时代杀出一条血路。如果你是一名经验丰富的运营，也请你务必看完这篇长文，它将尝试帮 ......

长文干货角度视频 4000更新时间 2023-09-10

spark2.4.4安装

1、环境准备：下载spark-2.4.4-bin-hadoop2.7.tgz 上传安装包到Linux中解压安装包 tar -zxf spark-2.4.4-bin-hadoop2.7.tgz -C /hadoop/app 2、配置环境 2.1修改hadoop中yarn-site.xml <pro ......

spark2 spark 4.4更新时间 2023-09-09

开发笔记-大数据技术栈-spark基础

Spark是一个快速、通用、可扩展的大数据分析引擎，是集批处理、实时流处理、交互式查询、机器学习与图计算为一体的大数据开源项目。一、对比MapReduce 1.Hadoop中的job处理流程：》从hdfs读取数据》在map阶段，执行mapper function,然后split到磁盘》在r ......

基础笔记数据 spark 技术更新时间 2023-09-06

Ubuntu部署Spark集群

## 前期准备 ### 系统及软件版本说明本章操作中所使用的相关操作系统及软件版本如下： | 软件 | 版本 | | | | | 操作系统 | Ubuntu 14.04.1 | | JDK | 1.8.0 | | Hadoop | 2.7.3 | | Spark | 2.2.0 | ### JDK ......

集群 Ubuntu Spark更新时间 2023-09-04

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类，它简化了流式数据入湖并存储为Hudi表的操作，自 `0.10.0` 版开始，Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力，这使得其可以直接将Debez ......

DeltaStreamer Serverless Apache Spark Hudi更新时间 2023-09-03

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230903170841666-247436382.png) 原创/朱季谦第一次写这么长的graphx源码解读，还是比较晦涩，有较多不足之处，争取改进。 ### 一 ......

connectedComponents 底层函数原理 Graphx更新时间 2023-09-03

图解Spark Graphx实现顶点关联邻接顶点的函数原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230901005349386-1258559942.png) ## 一、场景案例在一张社区网络里，可能需要查询出各个顶点邻接关联的顶点集合，类似查询某个人关系比较 ......

顶点函数原理 Graphx Spark更新时间 2023-09-01

spark教程-1

# scala基本操作 ``` scala> val input=sc.textFile("C:\\Users\\gwj\\Desktop\\cont.txt") input: org.apache.spark.rdd.RDD[String] = C:\Users\gwj\Desktop\cont. ......

教程 spark更新时间 2023-08-31

3.2.0 终极预告！云原生支持新增 Spark on k8S 支持

![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230828190238753-1379880889.png) 视频贡献者 | 王维饶视频制作者 | 聂同学编辑整理 | Debra Chen > Apache ......

终极 Spark k8S 8S on更新时间 2023-08-28

8.21-8.27学习总结博客七：Spark机器学习与实时处理

博客题目：学习总结七：Spark机器学习与实时处理入门内容概要：学习使用Spark进行机器学习和实时数据处理的基本知识，了解Spark的机器学习库和实时处理框架。学习资源：推荐的Spark机器学习和实时处理教程、案例和学习资源。实践内容：通过编写Spark应用程序，实践使用Spark进行机器学习和实 ......

实时机器 Spark 博客 8.21更新时间 2023-08-26

Spark任务提交到Yarn状态一直是Accepted

## 现象今天提交 Spark 任务到 Yarn 集群，但是任务状态一直是 Accepted: ``` 23/08/25 14:59:55 INFO Client: Application report for application_1692971614101_0018 (state: ACCE ......

Accepted 状态任务 Spark Yarn更新时间 2023-08-25

Hadoop 和 Spark 简介

# Hadoop 和 Spark 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 过去一直是大数据的经典解决方案，它包含两个部分：Hadoop HDFS 和 Ha ......

简介 Hadoop Spark更新时间 2023-08-25

万字长文硬核AQS源码分析

阅读本文前，需要储备的知识点如下，点击链接直接跳转。 [java线程详解](https://www.cnblogs.com/star95/p/17583193.html) [Java不能操作内存？Unsafe了解一下](https://www.cnblogs.com/star95/p/1761943 ......

长文源码 AQS更新时间 2023-08-25

apache spark connect 试用

spark connect 3.4 开始就支持了connect 模式，3.4.1 比较稳定了 connect server 启动实际上就是一个spark 引用，通过spark_submit 提交到spark 环境中启动 ./sbin/start-connect-server.sh --packa ......

connect apache spark更新时间 2023-08-22

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD（弹性分布式数据集）中的数据就如final定义一般，只可读而无法修改，若要对RDD进行转换或操作，那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的，在RDD转换阶段，只会记录该转换逻辑而不会执行，只有在遇到行动算子时，才会触发真正的运 ......

惰性 Spark RDD更新时间 2023-08-22

共264篇 :4/9页 首页上一页1234567下一页尾页