微服务与分布式系统架构问题如何解决？_服务器

如果大家了解微服务和分布式服务器架构等技术的话，那么对于如何解决系统运行中出现的BUG造成的破坏和损失这些问题也应该有自己独到的见解吧。今天，电脑培训就一起来了解一下，在服务器运行过程中出现的问题都有哪些解决方法。

随着微服务和分布式云架构的崛起，Web变得日趋复杂，“随机性”的故障因此变得越来越难以预测，而我们对这些系统的依赖却与日俱增。

这些故障给公司造成巨大损失，也给用户带来很大的麻烦，影响他们进行在线购物、交易或打断他们的工作。即使是一些简单的故障也会触及公司的底线，因此，宕机时间就成为很多工程团队的KPI。2017年，有98%的企业表示，一小时的宕机时间将给他们带来超过10万美元的损失。一次服务中断有可能让一个公司损失数百万美元。近，英国航空的CEO透露，2017年5月发生的一次技术故障造成数千名乘客滞留机场，给公司造成8000千万英镑的损失。

企业需要想办法解决这些问题，因为等到下一次事故发生就为时已晚。为此，混沌工程应运而生。

混沌工程旨在将故障扼杀在襁褓之中，也就是在故障造成中断之前将它们识别出来。通过主动制造故障，测试系统在各种压力下的行为，识别并修复故障问题，避免造成严重后果。

混沌工程将预想的事情与实际发生的事情进行对比，通过“有意识地搞破坏”来提升系统的d性。

混沌工程简史

混沌工程先出现在互联网巨头公司中，这些公司拥有大规模的分布式系统，因为这些系统太过复杂，他们需要一些新的手段来测试它们。

2010年

NetflixEngTools团队开发出了ChaosMonkey。当时，Netflix从物理基础设施迁移到AWS上，为了保证AWS实例的故障不会给Netflix的用户体验造成影响，他们开发了这个工具，用来测试系统。

2011年

SimianArmy诞生，在ChaosMonkey的基础上增加了故障注入模式，可以测试更多的故障场景。Netflix认为，云的特点是冗余和容错，但没有哪个组件能够保证100%的可用性，所以他们必须设计出一种云架构，在这种架构里，个体组件的故障不会影响到整个系统。

2012年

Netflix在GitHub上开源了ChaosMonkey，并声称他们“已经找到了应对主要非预期故障的解决方案。通过经常性地制造故障，我们的服务因此变得更有d性。”

2014年

Netflix团队创建了一种新的角色，叫作混沌工程师。BruceWong发明了这个角色，并由DanWoods在Twitter上向广大的工程社区推广。DanWoods解释说，“我从KoltonAndrus那里学到了更多有关混沌工程的知识，他把它叫作故障注入测试”。

2014年10月，当时Gremlin的联合创始人KoltonAndrus还在Netflix，他们在SimianArmy的基础上提出了故障注入测试(FIT)概念，开发者可以更灵活地控制注入故障的“杀伤力范围”。因为SimianArmy有时候会造成非常严重的故障，所以Netflix的开发者对它抱有疑虑，而FIT可以更好地控制故障粒度，于是他们就由此想出了混沌工程这个概念。

DNS（Domain Name System，域名系统），记录ip地址的分布式服务器。 DNS解析过程如图

全球13组根域名服务器以英文字母A到M依序命名。

域名系统默认的不用写

顶级域名服务器主要负责管理在该顶级域名服务器注册的二级域名。

列：

举例:
baiducom 和 >

分布式是一种思想，范围很广，我得先知道它的诞生：

以前是一个数据库一个JSP就可以做一个应用了，后来随着业务复杂，我们开始分层，比如MVC之类的，再后来我们的数据越来越多了，比如有上亿的数据，这个时候我们一个数据库查询太慢了，就开始分库，这也算是分布式的一种。

还有比如我们的系统访问的人多了，比如双11，上千万人同时访问，我们的服务器（网站）支持不住了，这个时候就要部署到很多个服务器，每个服务器分摊请求，这也是分布式

当然随着业务扩大，我们得分业务了，比如注册登录的，物流的，卖东西的等等，不同的系统，但是各个系统之间进行协调，也算分布式一种

以上都算是分布式的来源，主要是解决压力过大，大家协同工作的，那么这就涉及到一些常用的东西，或者像你说的的技术

1你用N个数据库才放数据，至少CRUD方面就麻烦些了，得用cobar,tddl,mysql-proxy等协调

2服务器：你部署了很多服务器，肯定得用个东西来分发请求这些吧，nginx,apache等分发请求。

3你公司有很多系统，想很好的联系在一起，光用接口不满足了，得用一些JMS,像activemq,ons之类的来协调吧

4为了解决io问题，得加缓存吧，那么缓存对应上面的，也得分布式吧，就涉及memcache,redies等等

上面就简单的介绍了下分布式的东西，还有很多啦，这是常用的一些，希望你能慢慢来，不是一下子能理解得

首先我们打开SQL SERVER自带的数据库管理工具，从开始菜单中可以找到，点击进去；
开始连接SQL SERVER服务器，就是我们装好的SQL SERVER 服务器；
右击数据库，选择第一个，新建一个数据库；
填写数据库的名称（箭头方向），下面是设置自动增长的，一般不用管，默认
点击确定后就可以生成一个数据库，此时里面是没有表的；
右击表新建一个表，填写你要的字段名称
填完字段名称后点击字段名称那个内部窗口的小叉叉，然后就提示你输入表名了，填写下表名，一个数据库的建立过程就是这样的；

很多组织机构慢慢的在不同的服务器和地点部署SQLServer数据库——为各种应用和目的——开始考虑通过SQLServer集群的方式来合并。

将SQLServer实例和数据库合并到一个中心的地点可以减低成本，尤其是维护和软硬件许可证。此外，在合并之后，可以减低所需机器的数量，这些机器就可以用于备用。

当寻找一个备用，比如高可用性的环境，企业常常决定部署Microsoft的集群架构。我常常被问到小的集群(由较少的节点组成)SQLServer实例和作为中心解决方案的大的集群哪一种更好。在我们比较了这两个集群架构之后，我让你们自己做决定。

什么是Microsoft集群服务器

MSCS是一个WindowsServer企业版中的内建功能。这个软件支持两个或者更多服务器节点连接起来形成一个“集群”，来获得更高的可用性和对数据和应用更简便的管理。MSCS可以自动的检查到服务器或者应用的失效，并从中恢复。你也可以使用它来(手动)移动服务器之间的负载来平衡利用率以及无需停机时间来调度计划中的维护任务。

这种集群设计使用软件“心跳”来检测应用或者服务器的失效。在服务器失效的事件中，它会自动将资源(比如磁盘和IP地址)的所有权从失效的服务器转移到活动的服务器。注意还有方法可以保持心跳连接的更高的可用性，比如站点全面失效的情况下。

MSCS不要求在客户计算机上安装任何特殊软件，因此用户在灾难恢复的经历依赖于客户-服务器应用中客户一方的本质。客户的重新连接常常是透明的，因为MSCS在相同的IP地址上重启应用、文件共享等等。进一步，为了灾难恢复，集群的节点可以处于分离的、遥远的地点。

在集群服务器上的SQLServer

SQLServer2000可以配置为最多4个节点的集群，而SQLServer2005可以配置为最多8个节点的集群。当一个SQLServer实例被配置为集群之后，它的磁盘资源、IP地址和服务就形成了集群组来实现灾难恢复。

SQLServer2000允许在一个集群上安装16个实例。根据在线帮助，“SQLServer2005在一个服务器或者处理器上可以支持最多50个SQLServer实例，”但是，“只能使用25个硬盘驱动器符，因此如果你需要更多的实例，那么需要预先规划。”

注意SQLServer实例的灾难恢复阶段是指SQLServer服务开始所需要的时间，这可能从几秒钟到几分钟。如果你需要更高的可用性，考虑使用其他的方法，比如logshipping和数据库镜像。

单个的大的SQLServer集群还是小的集群

下面是大的、由更多的节点组成的集群的优点：

◆更高的可用新(更多的节点来灾难恢复)。

◆更多的负载均衡选择(更多的节点)。

◆更低廉的维护成本。

◆增长的敏捷性。多达4个或者8个节点，依赖于SQL版本。

◆增强的管理性和简化环境(需要管理的少了)。

◆更少的停机时间(灾难恢复更多的选择)。

◆灾难恢复性能不受集群中的节点数目影响。

下面是单个大的集群的缺点：

◆集群节点数目有限(如果需要第9个节点怎么办)。

◆在集群中SQL实例数目有限。

◆没有对失效的防护——如果磁盘阵列失效了，就不会发生灾难恢复。

◆使用灾难恢复集群，无法在数据库级别或者数据库对象级别，比如表，创建灾难恢复集群。

虚拟化和集群

虚拟机也可以参与到集群中，虚拟和物理机器可以集群在一起，不会发生问题。SQLServer实例可以在虚拟机上，但是性能可能会受用影响，这依赖于实例所消耗的资源。在虚拟机上安装SQLServer实例之前，你需要进行压力测试来验证它是否可以承受必要的负载。

在这种灵活的架构中，如果虚拟机和物理机器集群在一起，你可以在虚拟机和物理机器之间对SQLServer进行负载均衡。比如，使用虚拟机上的SQLServer实例开发应用。然后在你需要对开发实例进行压力测试的时候，将它灾难恢复到集群中更强的物理机器上。

集群服务器可以用于SQLServer的高可用性、灾难恢复、可扩展性和负载均衡。单个更大的、由更多的节点组成的集群往往比小的、只有少数节点的集群更好。大个集群允许更灵活环境，为了负载均衡和维护，实例可以从一个节点移动到另外的节点。

分布式服务器上下线动态感知（Hadoop HA）
HDFS集群中NameNode 存在单点故障问题，对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启动。

影响HDFS集群不可用主要包括以下两种情况：

NameNode机器宕机，将导致集群不可用，重启NameNode之后才可使用。

计划需要对NameNode节点软件或硬件升级，导致集群在短时间内不可用。

为了解决上述问题，Hadoop给出了HDFS的高可用 HA方案：HDFS的HA通常由两个NameNode组成，一个处于 active 状态，另一个处于 standby 状态。Active NameNode对外提供服务，比如处理来自客户端的RPC请求，而Standby NameNode则不对外提供服务，仅同步Active NameNode的状态，以便能够在它失败时快速进行切换。而这里的快速切换是如何实现的呢？是通过zookeeper的动态上线感知来实现的。

简单介绍下zookeeper是什么？

ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，ZooKeeper是以Fast Paxos算法为基础，实现同步服务，配置维护和命名服务等分布式应用。这是zookeeper的官方介绍，对于程序原来说zookeeper在hadoop中的应用可以理解为是hadoop的整体监控系统，如果namenode宕机后，这时候Zookeeper 的重新选出leader。这是它最大的作用所在。

接下来看看zookeeper的动态上线感知图：

1、首先在hadoop中配置自动故障转移机制。

2、在配置HA的时候首先配置zookeeper集群，然后启动zookeeper集群。

3、在第一次启动hadoop的HA之前先初始化HA在zookeeper中的状态然后启动HA，在启动过程中会在各个NameNode节点上启动DFSZK Failover Controller，作用就是向zookeeper中注册服务器的信息，然后hadoop通过进程监控在zookeeper中的节点状态。

4、在zookeeper中注册的节点是临时节点，当服务器宕机下线的时候，zookeeper会把这个节点删除掉，这样才会产生事件，客户端（hadoop）才能监听到，然后hadoop将Standby NameNode转换为Active NameNode。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/zz/13013592.html

微服务与分布式系统架构问题如何解决？

发表评论

评论列表（0条）