问题描述
?
考虑到在山东移动机房租赁的物理服务器的存在单点,并时不时出现故障,导致业务停止,因此决定从物理服务器把某个老牌论坛迁移到可用性极高的proxmox超融合私有云平台。昨天夜里,兄弟们忙乎了一整夜,很是辛苦(我在11点对那些坏掉的文件系统进行修复,用screen仍在那里,自己睡觉去了)。
?
上午睡了个懒觉,还没清醒过来,有电话、qq消息过来了,说论坛页面能打开,详情页也没问题,但不能签到、发帖、发附件等。
催得厉害,赶紧进行处理。
?
运行环境
?
主要包括负载均衡及超融合私有云proxmox。负载均衡负责用户转发,使用的是公网ip;超融合私有云proxmox使用的是四个节点的物理服务器,运行30几个虚拟机。
域名解析到负载均衡的vip,haproxy负责把请求转发到proxmox上的指定的虚拟机。由于论坛容量不是很大(400G左右),就直接把论坛程序、附件及数据库部署在同一个虚拟机上(其它的应用,程序与数据库是分离的)。
?
基本思路
?
超融合私有云平台proxmox上的其它虚拟机及应用都是正常状态,因此可以排除底层架构的问题。
?
另外两个大的排查点就是负载均衡及论坛虚拟机本身。其他兄弟怀疑是负载均衡配置的问题,还发来了相关操作信息。
我一直强调,一定要先从后端真实提供服务的系统进行排查,真实服务提供者有问题,排查负载均衡有什么用处呢?
?
问题定位
?
登录系统,查看论坛的配置,主要是nginx及php。论坛页面可以打开,可以初步断定php没什么问题。
?
接下来,打开nginx配置看看,主配置文件有如下几行包含项:
include?vhosts/default.conf; include?vhosts/bbs.formyz.net.conf; include?vhosts/file.formyz.net.conf; include?vhosts/net.formyz.net.conf;
include vhosts/default.conf; include vhosts/bbs.formyz.net.conf; include vhosts/file.formyz.net.conf; include vhosts/net.formyz.net.conf; |
对nginx进行语法检查,未发现异常。老办法,查nginx错误日志,很快有如下发现:
FastCGI?sent?in?stderr:?"Primary?script?unknown"?while?reading???response?header?from?upstream
FastCGI sent?in?stderr:?"Primary script unknown"?while?reading ? response header from upstream |
?
心中有底了,一定是哪个包含文件配置上有问题。分别对这三个配置文件进行备份,然后挨个打开,发先有两个配置文件里,嵌套了包含项如下:
root??????/data/html/bbs.formyz.net; ???????????????fastcgi_pass??127.0.0.1:9000; ???????????????fastcgi_index?index.php; ???????????????include???fastcgi.conf;
root??? ? /data/html/bbs.formyz.net; ?????????????? fastcgi_pass? 127.0.0.1:9000; ?????????????? fastcgi_index index.php; ?????????????? include ? fastcgi.conf; |
而另外一个配置文件里,嵌套的项确是这样的:
root??????/data/html/bbs.formyz.net; ???????????????fastcgi_pass??127.0.0.1:9000; ???????????????fastcgi_index?index.php; ???????????????include???fastcgi_params;
root??? ? /data/html/bbs.formyz.net; ?????????????? fastcgi_pass? 127.0.0.1:9000; ?????????????? fastcgi_index index.php; ?????????????? include ? fastcgi_params; |
?
再比较文件fastcgi.conf与文件fastcgi_params,不同之处如下:
Fastcgi.conf | fastcgi_params |
fastcgi_param? SCRIPT_FILENAME??? $document_root$fastcgi_script_name; | fastcgi_param? SCRIPT_NAME??????? $fastcgi_script_name; |
?
把不一致的嵌套包含,都改成include fastcgi.conf,重启nginx。绑定服务器的主机名及ip到本地的hosts文件,浏览器访问论坛,测试签到、发帖等,一切恢复正常!