如何在不完全重新启动应用程序的情况下将具有复制 HA 的集群从嵌入式代理返回到工作状态？

如何解决如何在不完全重新启动应用程序的情况下将具有复制 HA 的集群从嵌入式代理返回到工作状态？

我建立了一个复制 HA 集群，由 3 个活动和 3 个备份的嵌入式代理 ActiveMQ Artemis 2.17.0 组成。

不知何故，集群丢失并停止正常工作（到目前为止还无法准确重现）。方法 activeMQServerControl.listNetworkTopology() 为不同的节点返回了错误的拓扑。

我们仅通过删除 bindings 文件夹并完全重新启动整个应用程序来解决此问题。只是重新启动代理 embedded.stop() embedded.start() 没有帮助。

在这种情况下，是否可以在不完全重新启动应用程序和删除 bindings 文件夹的情况下以某种方式将集群恢复到健康状态？

第一个broker的配置文件，其他broker的配置文件类似，只是其他IP地址和组名一对。

<?xml version="1.0" encoding="UTF-8"?>
<configuration xmlns="urn:activemq">
    <core xmlns="urn:activemq:core">
        <name>QM2A</name>
        <max-disk-usage>100</max-disk-usage>
        <configuration-file-refresh-period>9223372036854775807</configuration-file-refresh-period>
        <bindings-directory>${DATA}/artemis/bindings</bindings-directory>
        <journal-directory>${DATA}/artemis/journal</journal-directory>
        <large-messages-directory>${DATA}/artemis/largemessages</large-messages-directory>
        <paging-directory>.${DATA}/artemis/paging</paging-directory>
        <cluster-user>admin</cluster-user>
        <cluster-password>password</cluster-password>
        <!-- Acceptors -->
        <acceptors>
            <acceptor name="netty-acceptor">tcp://0.0.0.0:61716</acceptor>
            <acceptor name="in-vm">vm://0</acceptor>
        </acceptors>
        <security-settings>
            <security-setting match="#">
                <permission roles="admin-group" type="createNonDurableQueue"/>
                <permission roles="admin-group" type="deleteNonDurableQueue"/>
                <permission roles="admin-group" type="createDurableQueue"/>
                <permission roles="admin-group" type="deleteDurableQueue"/>
                <permission roles="admin-group" type="createAddress"/>
                <permission roles="admin-group" type="deleteAddress"/>
                <permission roles="admin-group" type="consume"/>
                <permission roles="admin-group" type="browse"/>
                <permission roles="admin-group" type="send"/>
                <permission roles="admin-group" type="manage"/>
            </security-setting>
        </security-settings>
        <connectors>
            <connector name="local">tcp://192.168.58.6:61716</connector>
            <connector name="connector9">tcp://192.168.58.9:61716</connector>
            <connector name="connector10">tcp://192.168.58.10:61716</connector>
            <connector name="connector12">tcp://192.168.58.12:61716</connector>
            <connector name="connector13">tcp://192.168.58.13:61716</connector>
            <connector name="connector14">tcp://192.168.58.14:61716</connector>
        </connectors>
        <cluster-connections>
            <cluster-connection name="my-cluster">
                <connector-ref>local</connector-ref>
                <static-connectors>
                    <connector-ref>connector9</connector-ref>
                    <connector-ref>connector10</connector-ref>
                    <connector-ref>connector12</connector-ref>
                    <connector-ref>connector13</connector-ref>
                    <connector-ref>connector14</connector-ref>
                </static-connectors>
            </cluster-connection>
        </cluster-connections>
        <ha-policy>
            <replication>
                <master>
                    <group-name>first</group-name>
                    <check-for-live-server>true</check-for-live-server>
                </master>
            </replication>
        </ha-policy>
    </core>
</configuration>

解决方法

如果对根本问题没有清楚的了解，如果不重新启动应用程序并删除绑定文件夹，就很难说问题是否可以解决。鉴于您提供的详细信息以及您无法重现问题的事实，我们的图片非常不完整。

如何在不完全重新启动应用程序的情况下将具有复制 HA 的集群从嵌入式代理返回到工作状态？

如何解决如何在不完全重新启动应用程序的情况下将具有复制 HA 的集群从嵌入式代理返回到工作状态？

解决方法

相关推荐