背景

本来我在吃着花生,听着老师唱王心凌男孩,突然群里有人@我了,不过这也是之前让你有问题找我,怪不得别人,都是工作,车端流量使用非常大,基本是1天几十个G,而且最近才发生

分析

主要怀疑几个方向,都和业务场景有关

  • Pad端流量分析:APP流量、数据收集、地图
  • 云端流量分析:日志收集、直播、场景
  • 域控制器流量分析:外联业务

过程

首先联系端和云上同事一起看看他们这边是否有异常流量,经过分析并没发现特别大的流程,期间也对流量使用及业务场景加深了了解。

其次运维方主要别精力放在域控制流量分析上,首先看Iftop流量过滤出外网的,发现了几个流量比较大的IP,分别是日志收集、业务场景,还有一个流量比较大的IP没有记录在案。通过查询发现是武汉的IP,还以为是域控制供应商留下的后门呢(有点儿乱想了),此时已经有了突破点儿,通过ss、netstat等命令发现,本地和该IP有10来个链接,而且端口一直在变,然后看流量每秒有50Mbps,开始还以为是恶意程序。最好安装了tcpdump,让同事抓包分析,最后才知道是测试网速的站点。

最后复盘,是同事之前测试网速后网络关闭了,让他开机启动一直运行了,可能是对这个测试原理不清楚,给人的教训就是发现了问题要及时分析,另外还得加强评审(最近一直在培养突破同事技能,难免有试错成本,还得加强把控)。

步骤

1、iftop找到外网异常流量ip

1
2
3
4
5
6
7
8
9
10
11
root@titan-ubuntu1:~# iftop -F  59.175.206.86/32 -P 
59.175.206.86:http-alt => rosmaster:54604 8.97Mb 6.83Mb 6.83M
<= 99.5Kb 77.4Kb 77.4Kb
59.175.206.86:http-alt => rosmaster:54650 8.31Mb 6.20Mb 6.20Mb
<= 92.6Kb 69.4Kb 69.4Kb
59.175.206.86:http-alt => rosmaster:54532 1.65Mb 5.85Mb 5.85Mb
<= 17.0Kb 66.0Kb 66.0Kb
59.175.206.86:http-alt => rosmaster:54528 4.85Mb 5.85Mb 5.85Mb
<= 49.9Kb 62.8Kb 62.8Kb
59.175.206.86:http-alt => rosmaster:54530 7.00Mb 5.79Mb 5.79Mb
<= 73.1Kb 63.0Kb 63.0Kb 0b 677b 677b

2、ss查看建立的链接

1
2
3
4
5
6
7
8
9
10
11
root@titan-ubuntu1:~# ss -an |grep 59.175.206.86
tcp TIME-WAIT 0 0 192.168.1.102:39204 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:38576 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:39654 59.175.206.86:8080
tcp FIN-WAIT-1 0 31365 192.168.1.102:40112 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:39652 59.175.206.86:8080
tcp FIN-WAIT-1 0 28357 192.168.1.102:40074 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:39650 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:38838 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:39656 59.175.206.86:8080
tcp TIME-WAIT 0 0 192.168.1.102:39198 59.175.206.86:8080

3、tcp分析得出结论

发现一个可疑链接 http://59.175.206.86:8080/speedtest/latency.txt?x=1654228563731,再一核对原来是之前测试流量脚本里面的带宽,由于车端上5G网络,测一次网速就得100Mb流量消化。