一、背景#
会社のネットワークは最近非常に不安定で、朝出勤時には打刻できず、ウェブページを閲覧できない状況がありました。昼間にも時折ネットワークの遮断が発生し、速度測定ではダウンロード速度が半分になり、アップロード速度はほぼ 0 です。
最初は電信回線の障害やオフィスの朝夕のピーク時のネットワークの混雑が原因だと思っていましたが、長い時間と高頻度で続くと驚きました。上司や人事に何度も苦情を言われた後、私はこの問題に徐々に重要視し始めました。
長年の経験に基づいて、以下のいくつかの原因を考え、一つずつ排除し始めました:
- オフィスの電信回線の障害または制限
- 朝のピーク時のデバイスの接続数や同時接続数が多く、データセンターのデバイスの負荷限界を超えている
- 会社の人数が増えるにつれて、AC と AP が過負荷状態になる
- 春夏の気温上昇に伴い、データセンターの機器の温度が高くなる ++(いくつかの機器はパッシブ冷却に依存しており、過熱によるスロットリングのリスクがあります)++
二、解決策の試み#
1. ラインの交換#
以前、会社の接続は電信の200M
のパブリックネットワークブロードバンドで、アップロードは30M
しかありませんでした。また、このエリアのほとんどは電信を使用しており、朝のピーク時の変動が非常に大きかったです。そのため、上司と簡単に相談した後、直接中国聯通1000M
のブロードバンドに変更し、アップロード速度を100M
にまで向上させました。
ここで少し不満を言わせてください、中国聯通のスタッフは時間を選ぶのが上手です。午前中待っても誰も来ず、午後になって急いで 2 人のスタッフがやってきました。私は彼らと一緒に昼休みを返上して働きましたが、温かい食事を食べることもできず、本当にお腹が空きました。
ラインの交換は確かに効果がありましたが、それほど大きくありませんでした。翌朝、遮断の現象が再び発生しました。
2. データセンターの機器の監視#
データセンターのほとんどの機器は確かにパフォーマンスが低下していますが、私が疑問に思ったのは、最近会社に大量の新入社員が入社しておらず、同時接続数も急増していない状況で、なぜ最近頻繁にカクつくのかということです。機器のバックエンドを 2 日間監視した後、この要素を否定しました。なぜなら、ハードウェアのパフォーマンスはまったく半分も使用されておらず、温度についてはまったく問題がないからです。
3. AC と AP の交換#
会社の AC には常に問題がありました、それは ++ ネットワーク帯域のほぼ半分を消費していました ++。最初は AC のポート数が多いため、AC をレイヤー 3 スイッチとして使用し、出口帯域が半分に減少したのは AC の負荷容量が不足しているためだと思いましたが、不要なパッチコードをすべて抜いた後も、AC を単独でテストした場合でも、まだローカルエリアネットワークで半分の速度しか出ませんでした。結局、会社に予算を提案して AC と AP の機器を交換しました。
AC にはH3C小贝优选RT-UR7208-P-E
を選び、AP にはH3C EWP-UAP673
を選びました。最大帯域幅は 300 で、会社の使用に十分です。交換後、ローカルエリアネットワークの速度は確かに向上し、以前のようにローカルエリアネットワークの帯域幅の半分を消費する状況は再び発生しませんでしたが、ネットワークの遮断はまだ発生します。
== では、問題は具体的にどこにあるのでしょうか?==
三、Clash ポートの公開#
ハードウェアのトラブルシューティングの後、私はソフトウェアに焦点を当て始めました。サイドルーターで現在の会社のトラフィックの出口を調べると、アップロードトラフィックが前月と比べて異常に増加していることがわかりました(++ 実際には、上下トラフィックは当時電信のスタッフにお願いして電信のバックエンドで確認しましたが、スタッフは問題がないと言っていましたので、最初はこの点を見落としました ++)。
上行トラフィックが異常であることに気付いた後、ローカルエリアネットワークでどの IP が異常な状況になっているかを個別に調査し始めました。最初は内部で会社のブロードバンドを利用してP2P
やPCDN
を実行している人がいるのかと思いましたが、調査の結果、ローカルエリアネットワークの IP アドレスに上行の異常な使用状況はなく、代わりに Clash のサービスリストにいくつかのパブリック IP が追加されていました。IP を逆引きしてドメイン名を検索すると、これらの IP のほとんどがロシアのテレビ会社であることがわかりました。Clash、上行トラフィックの異常、ロシアなどのキーワードで Github で検索すると、次のようなヘルプ投稿を見つけました。以下にオリジナルの投稿リンクを掲載します。
https://github.com/vernesong/OpenClash/issues/2629
::: grid {cols=2}
:::
ここまで見ると、私は気づきました。会社のサイドルーターは DMZ ホストとして使用されているため、多くのポートがパブリックネットワークに公開されています。今回の異常な上行帯域幅のイベントは、ポートが開放されていることをスキャンしているブルートフォースウイルスによって検出され、サイドルーターがジャンプホストやアクセラレーションホストとして使用された可能性が非常に高いです。そのため、ポート 7890 を閉じ、ファイアウォールルールを設定してローカルエリアネットワークデバイスのみが出口を許可するようにしました。上行トラフィックを観察した結果、8-9M/s から徐々に 200Kb/s〜2M/s に減少し、同時に速度測定サイトでは上下トラフィックが正常に回復し、Clash に表示されていた不明なロシアの IP も消えました。
== したがって、このイベントは一旦終了です。==
https://www.xiaohanwu.com/thinking/66276cf3176d45931ddc9e21
四、結論#
今回のイベントはウイルス感染ではなく、ネットワークの脆弱性としか言えませんが、その脆弱性を利用した最終的な使用者がロシアの大手テレビサービスプロバイダーであることは、違法なネットワーク CDN アクセラレーションサービスを入手するためにテレビサービスプロバイダーとハッカーが結託しているのではないかと思わせます。
国内には多くの無名で「免許不要」と称される「高度な防御 CDN」がありますが、その低価格と免許不要のため、多くのウェブマスターに支持されています。当時、私も財政的に余裕がなかったため、これらの無名の CDN サービスを考えることさえありましたが、今回のウイルスイベントにより、これらの小さな CDN サービスに対する新たな見方を持つようになりました。
この記事は Mix Space からの同期更新で、xLog にも掲載されています。
元のリンクは https://www.xiaohanwu.com/posts/IT/3