hadoop_第3页_内存溢出

java

hadoop完全分布式搭建

我们准备三台机器首先我们先在主机器上在opt目录下创建soft文件 mkdir optsoft 把jdk和hadoop的压缩包上传到soft目录并且分别解压，重命名为jdk和hadoop 1、【配置三台机

code

2022-5-16

50 0 0 0

java

windows10配置spark与pyspark

最近重新装了系统，需要对spark与pyspark重新配置下。于是写了这篇文章，希望对从事这个行业的人员能有所帮助： 1.准备阶段准备以下版本的安装包&#xff0c

code

2022-5-16

43 0 0 0

java

Pyspark的dataframe写入hive表

文章最前： 我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的

code

2022-5-16

70 0 0 0

java

PageRank 算法在Hadoop和Spark上的实现

背景和目的 PageRank 网页排名的算法，曾是 Google 关键核心技术。用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。通过对 PageRank 的编程在Hadoop 和 Spar

code

2022-5-16

86 0 0 0

python

Pyspark的dataframe写入hive表

文章最前： 我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ；这博客是记录我学习的

code

2022-5-16

67 0 0 0

java

hadoop之MapReduce统计选修课程人数，不及格门数，选课人数

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录前言一、题目要求二、数据解析 student.txt文件部分数据三、需求

code

2022-5-16

149 0 0 0

java

hive -f 报错 FAILED:ParseException line 1:5 cannot recognize in ‘set‘ ‘hive‘ ‘.‘ instatement

问题：hive -f 执行sql文件，报错。 FAILED:ParseException line 1:5 cannot recognize in ‘set’ ‘hive’ ‘.’ instate

code

2022-5-16

55 0 0 0

java

Spark离线开发框架设计与实现

目录 Spark离线开发框架设计与实现一、背景二、框架设计 2.1 基础框架 2.2 可扩展工具 2.3 应用程序 2.3.1 SQL应用 2.3.2 Java应用 2.3.3 数据回溯应用三、使用方式 3.1 使用介绍 3.2 使用

code

2022-5-16

44 0 0 0

java

Hadoop源码解析

Hadoop源码解析第0章 RPC通信原理解析第1章 NameNode启动源码解析第0章 RPC通信原理解析 0）回顾 1）需求： 模拟RPC的客户端、服务端

code

2022-5-16

56 0 0 0

java

[flink]flink on yarn之flink-conf最简单配置

注： jobmanager.memory.heap.size和jobmanager.memory.process.size二选一，且后者比前者大。 classloader.check-leaked

code

2022-5-16

54 0 0 0

java

大数据技术原理与应用实验1——熟悉常用的HDFS *** 作

文章目录一、实验目的二、实验环境三、实验内容（一）编程实现以下功能，并利用Hadoop提供的Shell命令完成相同任务：1. 向HDFS中上传任意文本

code

2022-5-16

57 0 0 0

java

ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException:

错误提示：220513 17:52:59 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException

code

2022-5-16

70 0 0 0

java

HDFS源码分析3：Namenode通信原理

目录 Hadoop RPC框架原理 RPC类（org.apache.hadoop.ipc.RPC）分析 ProtobufRpcEngine类分析应用层分析 Hdfs getBlockLocati

code

2022-5-16

62 0 0 0

python

大数据Hadoop之——数据采集存储到HDFS实战（Python版本）

要实现这个示例，必须先安装好hadoop和hive环境，环境部署可以参考我之前的文章： 大数据Hadoop原理介绍安装实战 *** 作（HDFSYARNMapR

code

2022-5-16

48 0 0 0

java

第8章 HBase应用

文章目录一：判断题二：单选题三：主观题1：HBase中引入namespace特性的好处是什么？2：HBas

code

2022-5-16

44 0 0 0

java

hadoop

一 <configuration><property><name>hadoop.tmp.dir<name><value>file:usr

code

2022-5-16

64 0 0 0

C

Snappy 1.1.7 源码编译以及验证

Snappy 是大数据开发中用的比较广泛的压缩算法，现在 snappy 最新版本是 1.1.9，这里使用的是 1.1.7， *** 作系统是 centos 7 1. 安装工具依赖 yum install -y gcc gcc-c++2. 安装

code

2022-5-16

34 0 0 0

java

Hadoop3.2.2实现倒排索引

本文是使用MapReduce并行分布式计算框架进行编程，实现倒排索引建立； 1.倒排索引的介绍 “倒排索引”是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主

code

2022-5-15

50 0 0 0

java

Hadoop中各组件的作用

HadoopHDFSYarnMapReduceHbaseHivePigZookeeperHbaseHiveSqoop1.HDFS:分布式文件系统,适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不

code

2022-5-15

58 0 0 0