学习Java应该了解的大数据和框架_工具

很多人都在知道，计算机行业的发展是非常迅速的，软件开发人员想要跟上时代的发展，最重要的就是不断挑战自己。在学习软件开发的过程，前期学习的知识是远远不够的，需要了解更多的知识，并且挑战更多的复杂性。

现在学习Java语言不能忽略工具和框架的使用，工具和框架的构建越来越复杂。很多人不知道学习工具和框架有什么用？下面昆明电脑培训为大家具体了解Java开发应该了解的大数据工具和框架。

一、MongoDB

这是一种最受欢迎的，跨平台的，面向文档的数据库。

MongoDB的核心优势是灵活的文档模型，高可用性复制集和可扩展的碎片集群。云南java培训建议可以尝试以多种方式了解MongoDB，例如MongoDB工具的实时监控，内存使用和页面错误，连接，数据库 *** 作，复制集等。

二、Elasticsearch

主要是能够为云构建的分布式RESTful搜索引擎。

Elasticsearch主要是使用在Lucene之中的服务器，能够进行分布式多用户能力的全文搜索引擎，并且还是使用在Java的开发中，这是现在很多企业中使用最流行的搜索引擎。ElasticSearch不仅是一个全文搜索引擎，而且是一个分布式实时文档存储，每个字段都能够被索引并且可以被搜索。它也是一个具有实时分析功能的分布式搜索引擎，java课程发现它还可以扩展到数百个服务器存储和处理数PB的数据。

三、Cassandra

这是一个开源的分布式数据库管理系统，最初由Facebook开发，用于处理许多商用服务器上的大量数据，提供高可用性而无单点故障。

ApacheCassandra是一套开源分布式NoSQL数据库系统。集GoogleBigTable的数据模型与AmazonDynamo的完全分布式架构于一身。于2008开源，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等Web20网站所采纳，成为了一种流行的分布式结构化数据存储方案。

四、Redis

开源（BSD许可证）内存数据结构存储，用作数据库，缓存和消息代理。

Redis是一个开源的，基于日志的Key-Value数据库，用ANSIC编写，支持网络，可以基于内存持久化，并提供多种语言的API。Redis有三个主要功能，云南IT培训认为可以将它与许多其他竞争对手区分开来：Redis是一个将数据完全存储在内存中的数据库，仅使用磁盘用于持久性目的。

NoSQL，泛指非关系型的数据库。随着互联网web20网站的兴起，传统的关系数据库在应付web20网站，特别是超大规模和高并发的SNS类型的web20纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

虽然NoSQL流行语火起来才短短一年的时间，但是不可否认，现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验，然而现在的系统已经更加的成熟、稳定。不过现在也面临着一个严酷的事实：技术越来越成熟——以至于原来很好的NoSQL数据存储不得不进行重写，也有少数人认为这就是所谓的20版本。这里列出一些比较知名的工具，可以为大数据建立快速、可扩展的存储库。

NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”，是一项全新的数据库革命性运动，早期就有人提出，发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储，相对于铺天盖地的关系型数据库运用，这一概念无疑是一种全新的思维的注入。

对于NoSQL并没有一个明确的范围和定义，但是他们都普遍存在下面一些共同特征：

不需要预定义模式：不需要事先定义数据模式，预定义表结构。数据中的每条记录都可能有不同的属性和格式。当插入数据时，并不需要预先定义它们的模式。

无共享架构：相对于将所有数据存储的存储区域网络中的全共享架构。NoSQL往往将数据划分后存储在各个本地服务器上。因为从本地磁盘读取数据的性能往往好于通过网络传输读取数据的性能，从而提高了系统的性能。

d性可扩展：可以在系统运行的时候，动态增加或者删除结点。不需要停机维护，数据可以自动迁移。

分区：相对于将数据存放于同一个节点，NoSQL数据库需要将数据进行分区，将记录分散在多个节点上面。并且通常分区的同时还要做复制。这样既提高了并行性能，又能保证没有单点失效的问题。

异步复制：和RAID存储系统不同的是，NoSQL中的复制，往往是基于日志的异步复制。这样，数据就可以尽快地写入一个节点，而不会被网络传输引起迟延。缺点是并不总是能保证一致性，这样的方式在出现故障的时候，可能会丢失少量的数据。

BASE：相对于事务严格的ACID特性，NoSQL数据库保证的是BASE特性。BASE是最终一致性和软事务。

NoSQL数据库并没有一个统一的架构，两种NoSQL数据库之间的不同，甚至远远超过两种关系型数据库的不同。可以说，NoSQL各有所长，成功的NoSQL必然特别适用于某些场合或者某些应用，在这些场合中会远远胜过关系型数据库和其他的NoSQL。

Apache三剑客：HBase, Cassandra, CouchDB。HBase的前景最为看好，因为它的开发者众多并且都是顶尖高手。Cassandra目前有很多否定的声音。CouchDB的小而精悍，赞誉很多，将要正式发布的CouchBase融合了MemBase和CouchDB，很令人期待。

HBase和Cassandra都是效仿Google的BigTable的基于列的数据库，它们都是用Java写的。另外一类似的数据库是HyperTable，百度用在一些后台分析，因为它是C++写的，速度比较快。不过HyperTable有点边缘，不太流行。这些基于列的开源数据库目前都比Goolge的BigTable差之少一个数量级

CouchDB是一个文档数据库。其最大的竞争者是MongoDB。MongoDB和HBase都采用主从服务器设计。CouchDB的服务器分布设计和Cassandra类似，Peer to Peer类型的。主从服务器设计一般能更好的strong consistent，属于CAP理论中的CP类型。 CouchDB和Cassandra一般认为都是eventual consistent，属于CAP理论中的AP类型。但其实MongoDB和Cassandra都可以设置成strong consistent或者eventual consistent。

以上所提到的数据库都支持MapReduce。好像出了HyperTable都支持非主键索引。HBase和strong consistent配置的MongoDB都支持最基本的锁定（HBase单行锁定，MongoDB单文档锁定），因此可以实现transaction，但是实现有点复杂和低效。单就transaction这一点，目前开源NoSQL数据库没有做的比较好的。

MongoDB的最大卖点是不需构建非主键索引也能执行很多查询。但是MongoDB的服务器分布设计实在不能让人恭维，可以说是NoSQL数据库中最Ugly的实现。

K-V数据库比较多，而且上面提到的基于列的数据库和文档数据库其实也都是K-V数据库。比较流行的纯种K-V数据库有:

Memcached: 非常流行，不支持持久化

VMWare's Redis: 很流行，新浪和知乎都在用，CP类型。

MemBase: 由很多Memcached的开发者开发，使用sqlite作底层存储。在社交游戏中用的比较多, zynga在用，CP类型。

Riak, 分布式实现和CouchDB/Cassandra比较像，AP类型。支持MapReduce。

Linkin's Voldemort，在K-V中少见的eventual consistent ，AP类型。

TT, TC

纯基于二维座标索引的是Neo4j。但是现在MongoDB和CouchDB都集成这一特性。

目前CouchDB的开发者成立的公司CouchOne收购了MemBase，将其底层sqlite换成CouchDB推出了CouchBase，从而引入MapReduce以支持非主键索引。CouchBase暂时还没有正式发布官方正式版，不过快了。虽然CouchDB是eventual consistent的，但是CouchBase的开发者宣称CouchBase保持了MemBase的strong consistent特性，具体实现有待以后研究。

如果从成熟的角度来看，比较成熟并且十分流行的的有CouchDB，Memcached，Redis。

NoSQL太火，冒出太多产品了，保守估计也成百上千了。

互联网公司常用的基本集中在以下几种，每种只举一个比较常见或者应用比较成功的例子吧。

1 In-Memory KV Store : Redis

in memory key-value store，同时提供了更加丰富的数据结构和运算的能力，成功用法是替代memcached，通过checkpoint和commit log提供了快速的宕机恢复，同时支持replication提供读可扩展和高可用。

2 Disk-Based KV Store: Leveldb

真正基于磁盘的key-value storage, 模型单一简单，数据量不受限于内存大小，数据落盘高可靠，Google的几位大神出品的精品，LSM模型天然写优化，顺序写盘的方式对于新硬件ssd再适合不过了，不足是仅提供了一个库，需要自己封装server端。

3 Document Store: Mongodb

分布式nosql，具备了区别mysql的最大亮点：可扩展性。mongodb 最新引人的莫过于提供了sql接口，是目前nosql里最像mysql的，只是没有ACID的特性，发展很快，支持了索引等特性，上手容易，对于数据量远超内存限制的场景来说，还需要慎重。

4 Column Table Store: HBase

这个富二代似乎不用赘述了，最大的优势是开源，对于普通的scan和基于行的get等基本查询，性能完全不是问题，只是只提供裸的api,易用性上是短板，可扩展性方面是最强的，其次坐上了Hadoop的快车，社区发展很快，各种基于其上的开源产品不少，来解决诸如join、聚集运算等复杂查询。

MongoDB——是一个基于分布式文件存储的数据库，由C++语言编写，其目的是为WEB应用提供可扩展的高性能数据存储解决方案，最大的特点在于它支持的查询语言非常强大，局域高性能、易部署、存储数据方便、模式自由等特点。

Cassandra——是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，具有模式灵活、多数据中心识别，可扩展性强等特点。

Hadoop HBASE——采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上。

Couchbase——是一个集群化的、基于文档的数据库系统，它使用一个缓存层来提供非常快的数据访问，将大部分数据都存储在 RAM 中。

Neo4j——是面向网络的数据库。也就是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但它将结构化数据存储在网络上而不是在表中。

NoSQL太火，冒出太多产品了，保守估计也成百上千了。

互联网公司常用的基本集中在以下几种，每种只举一个比较常见或者应用比较成功的例子吧。

1 In-Memory KV Store : Redis

2 Disk-Based KV Store: Leveldb

3 Document Store: Mongodb

4 Column Table Store: HBase

package basic;

import javasqlConnection;

import javasqlDriverManager;

import javasqlPreparedStatement;

import javasqlResultSet;

import javasqlSQLException;

import javasqlStatement;

public class JDBC {

public void findAll() {

try {

// 获得数据库驱动

//由于长时间不写，驱动名和URL都忘记了，不知道对不对，你应该知道的，自己改一下的哈

String url = "jdbc:oracle:thin:@localhost:1521:XE";

String userName = "system";

String password = "system";

ClassforName("oraclejdbcdriverOracleDriver");

// 创建连接

Connection conn = DriverManagergetConnection(url, userName,

password);

// 新建发送sql语句的对象

Statement st = conncreateStatement();

// 执行sql

String sql = "select from users";

ResultSet rs = stexecuteQuery(sql);

// 处理结果

while(rsnext()){

//这个地方就是给你的封装类属性赋值

Systemoutprintln("UserName："+rsgetString(0));

}

// 关闭连接

rsclose();

stclose();

connclose();

} catch (ClassNotFoundException e) {

// TODO Auto-generated catch block

eprintStackTrace();

} catch (SQLException e) {

// TODO Auto-generated catch block

eprintStackTrace();

}

public void delete(){

try {

//步骤还是那六个步骤，前边的两步是一样的

String url = "jdbc:oracle:thin:@localhost:1521:XE";

String userName = "system";

String password = "system";

ClassforName("oraclejdbcdriverOracleDriver");

Connection conn = DriverManagergetConnection(url,userName,password);

//这里的发送sql语句的对象是PreparedStatement,成为预处理sql对象，因为按条件删除是需要不定值的

String sql = "delete from users where id = ";

PreparedStatement ps = connprepareStatement(sql);

pssetInt(0, 1);

int row = psexecuteUpdate();

if(row!=0){

Systemoutprintln("删除成功！");

}

// 关闭连接

rsclose();

stclose();

connclose();

} catch (ClassNotFoundException e) {

// TODO Auto-generated catch block

eprintStackTrace();

} catch (SQLException e) {

// TODO Auto-generated catch block

eprintStackTrace();

}

以上就是关于学习Java应该了解的大数据和框架全部的内容，包括:学习Java应该了解的大数据和框架、nosql是什么、现在最成熟的开源nosql是什么分别有什么优缺点等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/sjk/9485750.html

学习Java应该了解的大数据和框架

发表评论

评论列表（0条）