F5售后服务一点通:关于BIG-IQ排错的些许问题

2020-06-22 22:29:06

F5小安

Note:F5售后服务“一点通”专栏,是由F5售后工程师主笔,收集和总结客户在实际工作中遇到的常见多发性问题,汇编成小技巧和知识点,通过F5官方微信号定期进行分享,希望有相同问题的客户从中得到解决问题的指导。“一点通”栏目的口号是“一点就通,痛并快乐的学习并解决问题!”。

作者:Yuri You F5客户现场工程师

2016年加入F5,具有10年以上大型企业/运营商网络设计和部署经验。  

F5-CSE security solution expert;F5-CSE cloud solution expert;CCIE RS;JNCIE-SP;HCPE;JNCIE-SEC

原文链接:https://mp.weixin.qq.com/s/jWqjX0hwox7JM6BoFMe_vw



BIG-IQ作为一个能全面管理application整个生命周期并提供丰富analytics呈现功能,越来越多的被客户所用到,然而在日常运维管理中,碰到BIG-IQ相关的问题,我们很多时候都是束手无策。下面我们就聊聊怎么去动手开始做一个BIG-IQ相关的troubleshooting。本文主体内容针对BIG-IQ版本6.1和7.0。


BIG-IQ的工作原理

首先我们来了解下BIG-IQ是怎么工作的,这对BIG-IQ的troubleshooting极其关键。因为相关的外部资料比较少,同时您在BIG-IP上的经验完全帮不到您,所以我们先来大致了解下BIG-IQ到底是怎么样的。

BIG-IQ的节点分为两种,一种是Central management node(简称CM),一种是Data Collection Node(简称DCD)。


1.一个完整的BIG-IQ系统部署结构如下:

两个CM作为一个HA系统,互为主备,没有active-active的形态。多个DCD作为数据采集存储节点同时工作,互为冗余。最基础的部署是一台CM和一台DCD能跑起BIG-IQ的基础功能。


2.BIG-IQ的基于TMOS,但仅限于它是基于TMOS

TMM 、MCPD、 /config/bigip.conf这些传统的在BIG-IP层面非常重要的东西在BIG-IQ这里基本无用。实际上BIG-IQ只是一个跑在linux host层面的一套java程序的集合,你只能使用GUI或者iControl REST和BIG-IQ互动。TMSH的功能仅限如下:


- 服务管理,比如(tmsh restart / start / stop / show /list sys service [service_name])

- 软件和分区管理,比如(tmsh install sys software image /hotfix …)

- 本地密码管理,比如(tmsh auth password …)

- UCS 保存或者恢复,比如(tmsh load / save sys ucs ...)

除此之外,实在想不出TMSH还有什么作用,所以,改变观念最重要。

3.BIG-IQ的关键进程:(https://support.f5.com/csp/article/K14736)

首先是2个基础进程:

其它功能相关的进程:

BIG-IQ数据呈现的核心是基于开源的elastic stack(https://www.elastic.co/)做的,所以如果你对elastic很熟,那基本上可以事半功倍了,elastic的绝大部分API call可以直接在BIG-IQ上运行,我们在troubleshooting的时候可以直接参考elastic官网的相对于版本的manual。


 最常见的BIG-IQ三类问题

1.BIG-IQ发现BIG-IP失败,参考https://support.f5.com/csp/article/K16307。

2.BIG-IQ CM或者DCD磁盘满,参考https://support.f5.com/csp/article/K30902515。

3.BIG-IQ CM Monitoring某些图表无法显示,大部分是因为关于这个图表展示的indices状态是Red, 一般情况下如果这块数据不是必须的,最快的方法是删除这个不正常的indices,方式如下:

#curl localhost:9200/_cat/indices | grep red | awk '{print $3;}'

#curl -X DELETE localhost:9200/<index-name>


当然,还有很多其他种类的各种各样的问题,告诉大家一个绝招,你就盯着BIG-IQ和BIG-IP的/var/log/restjavad.0.log看,基本上99%的问题在这个log文件中都有相关的线索,然后顾名思义去理解log,再去askf5上搜索。如果这还解决不了问题,那么就先哭1分钟,然后拿起手中的电话,拨打4008155595或者010-56438123开case。那么开BIG-IQ case需要收集哪些资料呢?如下:

开BIG-IQ case需要收集的资料:

  • -  开启BIG-IQ CM以及BIG-IP的restjavad debug信息功能:BIG-IP参考https://support.f5.com/csp/article/K15436

    BIG-IQ 将K15436中第四步中"log4j.rootLogger=INFO, restjavad_log" 改为 "log4j.rootLogger=FINEST, restjavad_log"就可以了。

  • -  在BIG-IQ CM(有些问题DCD也需要)和BIG-IP上用如下命令进行抓包:

    #tcpdump -nni lo port 8100 -s0 -w /var/tmp/case1.pcap

  • -  开启浏览器的开发者模式,重现问题,特别是BIG-IQ页面显示的问题一定要尝试重现问题。比如BIG-IQ页面上显示的vs状态或者无法discover BIG-IP这些问题。然后把整个重现过程存为HAR文件。此步骤参考https://support.f5.com/csp/article/K10370211
  • -  停掉抓包。收集BIG-IQ CM、DCD和BIG-IP的qkview和日志打包文件。
  • -  打开F5 support portal,开case,上传抓包、HAR和所有qkview。

说明:

步骤一:在收集完数据后一定要关闭debug。

步骤二:针对BIG-IQ和BIG-IP之间通信或者配合性问题基本上是必须的;如果是单独的BIG-IQ问题,步骤一可以忽略。

步骤三:对于BIG-IQ页面上显示的问题基本上也是必须的,必须采集。

步骤四:因为BIG-IQ的日志文件基本都会truncated掉,所以最好一开始就收集日志打包问题。


 BIG-IQ部署的问题

最后一节,我们来聊聊BIG-IQ部署的问题,如果在部署阶段就能注意一些问题,其实BIG-IQ很难出现运维上的问题(除了bug):

  • -  安装BIG-IQ CM和DCD,选择当前的最新版本。
  • -  安装BIG-IQ CM和DCD,使用LARGE模板,比如在vmware的hypervisor上使用BIG-IQ-7.0.0.1.0.0.6.LARGE-scsi.ova,这样磁盘默认分配500G(当然也是按需分配,不是一上来就直接占有500G),方便以后不停机扩大系统磁盘。

  • -  安装时虚机选择高性能的8vCPU/32Gmemory。
  • -  BIG-IQ 6.0.0 和 BIG-IP 13.1.0.5之后,如果要启用数据收集的功能,BIG-IP上必须开启AVR模块功能。
  • - 安装好CM和DCD后,做好基础配置,然后依据https://support.f5.com/csp/article/K30902515 扩大文件夹空间。基本上/var/log/扩大到20G,然后DCD的/var/空间扩大到300G(DCD收集的数据都会使用/var/空间。)。如果可能,认真参考https://techdocs.f5.com/en-us/bigiq-7-0-0/managing-disk-space-for-big-iq-virtual-edition.html

  • -  如果使用BIG-IQ收集ASM/AWAF的event log,一定要去BIG-IQ CM上调整log文件整体大小。

    进入BIG-IQ CM页面SystemàBIG-IQ DATA COLLECTION à BIG-IQ Data Collection Cluster à CONFIGURATION à Logging Data Collection à Web Application Security(ASM) à Configure, 减小默认index大小到50G*3(如果开启的dos的log收集,dos的index也要调整;根据自己的需求调整,全部加一起不超过总可用文件大小的40%就好。)。同时回到SystemàBIG-IQ DATA COLLECTION à BIG-IQ Data Collection Cluster à CONFIGURATIONàStatistics Data CollectionàConfigure, 调整Limit max storage to 40%。剩下留20%给系统一些余地。

  • -  BIG-IQ系统在数据多的情况下,CPU使用率会变高,特别是DCD,大部分数据的处理是在DCD上,所以如果可能,多安装些DCD分担压力,这样也能扩大总的数据磁盘空间。
  • -  如果有可能,在安装前尽量做好Sizing的工作,规划好系统需要多少DCD才能满足使用,参考https://techdocs.f5.com/en-us/bigiq-7-0-0/big-iq-dcd-sizing.html


好的,今天就到这里,希望这些tips对大家有所帮助。




发布评论 加入社群

发布评论

相关文章

F5售后服务一点通:F5 Advanced WAF误报事件的基本排障

F5小安

2020-06-23 11:13:06 459

F5售后服务一点通:topology负载应用问题

F5小安

2020-06-22 22:09:17 300

Login

手机号
验证码
© 2019 F5 Networks, Inc. 版权所有。京ICP备16013763号-1