Category Archives: 默认分类

开发Telegram bot的几点心得

Posted on 2024年 12月7日 by JulyClyde

Telegram bot 可以是一个HTTPS服务（Webhook模式：被动push Update）或者daemon（getUpdates模式：主动pull Update），不断的从bot API server获得Update，进行处理，做出动作，而实现一些功能。 Update解析 Telegram bot收到的Update对象有个不好的地方，就是它没有自带type属性。为了判断该Update到底是什么类型，需要先试探性的检查几个特定属性是否在Update内，然后再dispatch给各个type特定的处理函数。输入控制考虑到bot需要处理用户私聊和群聊两种场景，在获得update之后马上进行分类是必须的。 chat id == from id的情况下，bot收到的消息是私聊的。这种情况下一般消息上不会带有at bot的标志，不过偶尔也有人手贱非要输入，建议先无脑过滤掉，再进一步处理。此类bot大部分都是查询/控制类功能的bot，需要判断：发消息的人是否有权限对我发消息进行查询和控制 chat id != from id的情况下，bot收到的消息是群聊，chat id是群的ID号，from id是发消息人的ID号。如果bot被设计为处理群里的消息，在此时需要进行进一步判断：响应虽然Telegram在webhook模式提供了Making requests when getting updates 功能，但似乎一次只能返回一个动作。考虑到业务的复杂性，有时候需要做出多个动作，比如群管机器人的删除/封禁动作，既要做出删除封禁动作，还要给管理员回复一个消息，甚至有时候需要延迟一段时间再做动作等等……还是建议直接调用bot API实现功能，而不要使用在返回体中调用API的方法。这玩意，也就聊胜于无吧。限制：forwardMessage处理多图一个经常遇到的需求就是：监听群，收到某种消息之后就自动转发到另一处。但是一旦遇到这个消息含有多个图，情况就会变得糟糕，人类看来是一个消息带了多个图，但在bot API里会被分拆成多个Update，其中第一个图和文字组成第一个Update，其它的每个图分别一个Update，它们拥有相同的media_group_id号码，似乎可以相互关联；单从Updates的角度来看，你需要等到下一个不带media_group_id号码的消息，或者拥有不同的media_group_id号码的消息，才能确定上次的一组media已经收集齐全了，然后才能用forwardMessages一次性转发把这堆内容转发过去，这样它在目标chat里才会正确的粘连起来；如果还没有凑齐就调用forwardMessages，则多次forwardMessages转发过去的消息之间并不会自动粘连。但问题是：并没有一个字段声明这个media group里到底有多少个内容，也没有任何情报指出Telegram保证把这一堆Update放在同一个Updates里，尤其是：Webhook模式一次只能收到一个Update、getUpdates模式你指定的limit说不定会小于拆分的瓣数，甚至拆出来的好多瓣有可能是bot的不同实例分别处理的。再加上绝大多数bot的写作方式都是循环一圈仅处理一条Update，导致：凑齐media … Continue reading →

Posted in 默认分类 | Tagged bot, Telegram | Leave a comment

在Python里抑制requests库的日志消息

Posted on 2023年 03月1日 by admin

我自己经常在自己的脚本开头使用logging.basicConfig(level=logging.DEBUG)初始化logging库，但是随之而来的就是requests会输出大量日志，甚至盖过了我自己的内容。所以我打算抑制requests的日志。综合搜索的资料，和探索源代码，我发现：所以只需要在basicConfig后面加一句 logging.getLogger(“urllib3”).setLevel(logging.WARNING) 就可以抑制这部分日志了。另外，logging.Logger.manager.loggerDict是个好东西，可以检查当前到底存在哪些logger。通过检查loggerDict[‘urllib3.connectionpool’].propagate发现其为True，其上层也是True，因此，虽然这两层logger一个没handler，一个NullHandler，但是该logger记录的日志消息仍会逐层上传，最终被basicConfig的root logger处理。

Posted in 默认分类 | Tagged Logging, Python, Requests | Leave a comment

GNU和BSD版本的xargs 分隔符不同

Posted on 2023年 01月13日 by JulyClyde

例子：list=”a b c d e”; echo $list |xargs -n1 -I{} echo begin {} end 在Mac上执行结果：begin a endbegin b endbegin c endbegin d endbegin e end 在Linux上执行结果：begin a b c d e end 我这里的需求是有一堆输入，要分别以其为参数，执行一些命令，无论是否成功都要对所有目标执行，所以1 “一些命令”我选用shell function来实现，在其中读了$1作为本次处理的目标2 “所有目标”我选用xargs；如果选Parallel还得额外安装结果发现xargs在切分“以空格为分隔符”的字符串的时候，GNU版本默认不切分，结果把整个“含空格分隔符的字符串”传给函数，执行了一次，而函数里又选了$1作为本次执行目标，其综合结果就是只对列表中第一个目标执行了一遍更惨的是我对比的时候是在Mac上做的对比，怎么看怎么顺眼…… 最后请教同事，用xargs的-d参数解决的 GNU … Continue reading →

Posted in 默认分类 | Tagged Linux | Leave a comment

昨天遇到collectd exec插件的bug，顺便发现他们不按套路出牌啊

Posted on 2022年 12月15日 by JulyClyde

先说症状： collectd exec插件调用的几个外部脚本，其中总会随机有一个缺少COLLECTD_HOSTNAME和COLLECTD_INTERVAL环境变量。搜了一下是这个bug https://github.com/collectd/collectd/issues/3041 然后我好奇啊，就读了一下修改前后的代码，发现collectd不按套路出牌。带有bug的版本：先setenv()设置主进程自己的环境变量，然后尝试fork()，如果成功，在子进程里execvp()；主进程重新unsetenv()恢复主进程自己的环境变量。在多个exec密集执行的时候，都会访问主进程的环境变量，会有race condition，偶尔会发生前一个exec插件刚unsetenv()然后后一个exec插件开始fork()的情况，丢失环境变量。修复后的版本：先fork()，在子进程里准备环境变量数组，尝试execvpe()带签署环境变量数组作为参数，执行新进程（execvpe()为GNU专有扩展），或者先设置extern char **environ指针指向准备好的数组，然后execvp()执行新进程直接继承。别人家套路：先准备环境变量数组，然后fork()，在子进程里execve()并使用前述环境变量数组作为参数。

Posted in 默认分类 | Tagged collectd, Linux | Leave a comment

Tencent tlinux的$releasever比Redhat原版更反动

Posted on 2021年 12月3日 by admin

前几年我写过一篇批判$releasever的博客之后，现在工作中又用到了tlinux，而且发现它的$releasevar居然是2.2，是带小数的。但是看了看tlinux-release的主版本号确实是2，不带小数；它provide的centos-release的主版本号也是7，也不带小数。折腾了一番，发现yum的config.py里，class VersionGroupConf下边的_read_yumvars(yumvars, root) 函数，直接提供了用 /etc/yum/vars/ 下边的文件来设置release属性的方法。

Posted in 默认分类 | Leave a comment

supervisor泄漏进程案例分析

Posted on 2021年 06月30日 by admin

起因前几天使用 salt ‘*’ test.ping 的时候发现响应内容中有一些“某某minion was already deleted from tracker, probably a duplicate key“的提示信息。刚开始误以为是salt-key管理有问题，尝试删除再重新accept，但是依然会出错。到该minion上检查，发现上面运行了两套salt-minion*三层进程树，一共6个进程，其中一套的PPID为1，另一套的Parent是supervisord。然后就开始研究这种情况是怎么产生的，发现有两种可能：第一种可能 supervisor本身不被systemd监管，被SIGKILL信号杀死时，因为SIGKILL由内核直接处理，所以并没有机会关闭下属的进程，导致下属salt-minion进程树泄漏。而且不但salt-minion进程树泄漏，连同样被supervisor监管的另一个服务也一并泄漏，二者的PPID都变成了1号。不过，如果supervisor本身被systemd监管，在其主进程被杀死时，systemd会给整个service slice cgroup里所有进程补刀，所以并不会泄漏进程；如果supervisor是被SIGTERM信号杀死，它也会给下属子进程发信号，一般也不会泄漏进程。第二种可能 supervisor没有受到影响，正常运行；supervisor监管的salt-minion三层进程树的其中最高层进程（也就是supervisord的直属子进程）被SIGKILL信号杀死，随即，第二层进程exit(1) （不明原因，可能需要看一下salt-minion源码），导致第三层进程变成孤儿。经检查源代码的_spawn_as_child()函数，supervisor针对其监管下的每一个服务，都是采用 fork() + setpgid() +execve() 的方式来启动的，在调用setpgid()改变了process group id之后，第三层进程的孤儿收养关系就不再归属于supervisord进程，而是归属于1号进程。随后supervisor会重启salt-minion服务，产生新的3个进程，加上之前剩下的，一共4个。结论考虑到观察到6个进程而不是4个，实际发生的大概是前一种情况 supervisor虽然有“能力”处理进程退出之后马上重启的工作，但是因为使用了setpgid()把下属服务与自己隔离，没使用cgroup机制把下属服务单独圈起来，又不具备1号的神圣地位，其实它并不知道到底下属了多少、哪些进程，从机制原理上就根本无法保证所有下属的孤儿进程都被其reap。还是建议不要在严肃场合使用 1号进程神圣，所有的服务进程监管工作都应该交给1号进程来处理

Posted in 默认分类 | Tagged Linux, Saltstack, 规范化 | Leave a comment

滥用crond触发systemd-login故障一例

Posted on 2021年 06月30日 by JulyClyde

故障现象 2021年1月20日接到通知，要把systemd升级到219-73.tl2.10或以上、并把rsyslog一起升级，以修复/var/log/messages无日志内容的bug。经实验，发现使用yum升级两个软件包之后，systemd-logind的可执行文件也被更新，导致该服务处于原可执行文件已删除的状态，所以我提议，在升级步骤中增加重启systemd-logind服务的动作。在Ansible playbook里，因为不能表达“大于219-73.tl2.10“这种范围型版本号，所以就明确指定systemd的版本为当前yum能自动安装到的最新版本219-78.tl2.3 2月1日由同事执行更新操作之后，大部分节点都正常工作，但有两台发生重启事故，另有一台上的 35777 systemd-login进程占内存高达4～6G。这三台恰好是一组elasticsearch的三台master节点，均为C8机型，即16G内存的kubernetes容器。检查修复我尝试重启剩余的这台的system-logind，发现新进程3851号仍然占6G内存。查看/proc/3851/smaps，该区域为heap；用pmap命令查看，显示为[ anon ]。对比正常服务器的同一个内存区域，才244K而已。检查三台故障机及其宿主机的日志，发现大量oom记录，其中重启的两台所属宿主机的kubelet也发生故障重启：Feb 1 18:43:50 TENCENT64 kubelet: panic: runtime error: invalid memory address or nil pointer dereference 先gcore一份保留故障现场。由于操作系统组同事不登录上来观察，仅提供重启进程等建议，我只好自己做检查。根据建议，检查了dbus服务（dbus-daemon进程），发现也是可执行文件被删除的状态。检查yum日志，发现在去年6月升级了dbus包，但是服务进程是3月5日启动的，也就是升级包的时候并没有重启这个服务。再次尝试重启systemd-logind，新进程14278号，发现用内存VmPeak: 5270484 kB；但是过了一会儿再观察，发现增加到了VmPeak: 6599828 kB。这说明内存的增长是一个过程，虽然增长比较快，但并不是一下子就6G的。于是我决定strace一下它。先关闭systemd-logind服务。使用命令strace -ff -s 1000 -p 1挂在systemd主进程上做跟踪，并用-o参数把多个进程的跟踪记录分别写在文件里。然后启动systemd-logind服务。这样，strace可以跟踪到 1号进程clone+execv执行systemd-logind的瞬间，以及systemd-login最开头的行为。检查systemd-login的strace记录，发现大量访问 /run/systemd/session/ 目录下面文件的动作。检查该目录，发现大量残留文件。搜索，发现 https://www.jianshu.com/p/343a072e2521 … Continue reading →

Posted in 默认分类 | Tagged Linux, systemd, 规范化 | Leave a comment

Reproducible builds 果然是很重要的

Posted on 2020年 04月26日 by admin

去年10月17日公司出了个事故，“幸好有我“，力挽狂澜。我觉得还是把具体内容脱敏，记录一下吧，免得将来忘了。早晨test环境某个自研产品组件build成功，但是运行时错误日志里一堆“Broker hostname updated”等等，仿佛孔乙己说的话，让人听不懂。我刚开始没把这个当回事，请Kafka管理员去检查，几个小时都没查出原因来。到了午后，各自研组件纷纷开始更新Live环境的版本，发布的都是前几天在Test环境已经测试定稿的版本，居然也出现了类似的问题。更狠的是，回滚居然也无效！最终查实，有不少自研产品的build脚本里，使用wget下载master版本的librdkafka然后编译使用。而librdkafka恰在前一天（10月16日）被提交了很多修改。当时紧急解决的方法是使用librdkafka的上一个被明确标记了tag的v1.2.1版本代替master版本。事后复盘处理过程，觉得当时的处理过程也有问题：所谓回滚其实并非直接使用旧版本编译出来的docker image，而是重新build了旧版本，而且编译时指定的是branch名字，而不是精确的commit id，这样的问题是无论外部代码（master版本的librdkafka）还是自研代码（注意branch有可能move forward哦），都不一定是原来的版本，这个行为其实并不能称作回滚，而是带有主观回滚意向的一次重新构建。在这种情况下，讨论自研代码和外部库的质量，都是缺乏讨论基础的。这种讨论应该基于确定的版本。说实话，我以前对于传说中的“Google把自研代码、外部库和工具链”全都纳入版本化管理，是有点嗤之以鼻的。当时我觉得这种做法，在处理多个自研软件的外部依赖相互冲突时，会带来额外的行政成本，在国内企业的KPI风格下，会导致相互推诿。经过这次力挽狂澜之后，觉得相互推诿其实是KPI至上主义导致的，而不是把所有代码都管起来导致的；不过是否真的要管这么大范围，尚有待商榷。

Posted in 默认分类 | Tagged 规范化, 软件工程 | Leave a comment

广东电信IPTV 华为EC6108v9c 的使用经验

Posted on 2020年 03月11日 by admin

前天（3月9日）终于拨乱反正把还剩下近一个月但网络“几乎能通”的垃圾天威视讯给弃用了，换了正经运营商中国电信广东深圳公司的上网服务，并且开通了IPTV。因为今年租的房子是正经居民房，就遭遇到了经典的“弱电箱距离电视机太远”的问题。本来IPTV盒子可以支持Wi-Fi的，但它很快就强制自动升级，把本来支持的Wi-Fi联网方式给去掉了。网上找到一个固件，保留了“粤TV”app，并且重新开启了Wi-Fi功能，且开放安装外来安卓软件。刷新说明里写着放在FAT32的U盘里，文件名叫update.zip，开盒子之后在bootloader过程中按左右键进入recovery，然后apply update from external storage即可。但我照做的时候，recovery提示没有找到升级包。再搜，发现还有一个所谓按待机键进入recovery的，但我按不出来。妄want图to 拆盒子短接跳线，还从盒子里掉出一个虫子尸体，算是给祖师爷致敬了。我想了想，可能这俩方法是不同时期的。于是我在当前recovery里apply update from backup刷回旧版了，（中间还操作了一步wipe dalvik cache，清除新版的升级包，避免旧版开机之强制刷新新版）然后再按待机键进入旧版recovery，刷了这个update.zip进去。再说网络。官版固件有线网接入，目前是IPoE（其实就是特殊的DHCP）或者PPPoE认证的；直接DHCP无法获得IP地址。我改了一下光猫，把原来的VLAN 45上联业务，从PPPoE桥接模式（即：客户端自己PPPoE）改为PPPoE路由模式，并开放下行DHCP服务，再关联到SSID1上，用IPTV盒子去连这个Wi-Fi即可。理想情况下应该开多个SSID，但我这个光猫似乎不支持多个，所以这个2.4G only的Wi-Fi就给IPTV用，而自家其他通用设备使用的Wi-Fi，用了额外一个5GHz路由器从有线网口转出来。

Posted in 默认分类 | Tagged Android, IPTV | 1 Comment

浅谈用过的几台120相机

Posted on 2020年 01月21日 by JulyClyde

之前回老家的时候，发现家里多出一台海鸥4A相机，于是2019年要过来玩了几下，开始尝试玩120反转片。但是因为最初两卷拍暗了，以及经历其中有一张拍不下去只能过卷，所以对这台机器充满了怀疑，就搁置了，又买回一台Bronica ETRSi，然后过了几个月又买了一台Mamiya M645Pro。玩了几卷之后，觉得有必要浅谈一下这几台相机的使用感受，以便将来回忆和复习。先简单介绍一下这几台相机：海鸥4A：竖式外观一体式、两个镜头联合皮腔对焦、腰平取景、镜间快门、过卷联合快门镜头上弦（打开多重曝光之后可以只上弦）、自动停片（固定6*6画幅）、双反相机 Bronica ETRSi：“前后长”外观模块式、螺旋对焦、选配眼平测光取景器、过卷联合快门镜头上弦（打开多重曝光之后可以只上弦）、镜间快门、自动停片（固定6*4.5画幅）、单反相机，外观是“前后长”的 Mamiya M645Pro：“前后长”外观模块式、螺旋对焦、选配眼平非测光取景器、过卷联合快门上弦（打开多重曝光之后可以只上弦）、焦平面快门、自动停片（固定6*4.5画幅）、单反相机 120中画幅胶卷，宽度6厘米，所以成像尺寸的一个边固定为6厘米，不过120的优势是另一个边长度可变，有6*6、6*7、6*8、6*9、6*4.5等多种画幅。拍摄完成之后，胶卷会在另一个轴上重新卷起来，并用背纸贴封条保护起来，不同于135胶卷拍摄完成之后退回硬质保护壳的那种做法。双反相机因为取景和拍摄的两个镜头上下排列（左右排列、眼平取景、无反光板那种相机叫旁轴，不叫双反），机身纵向尺寸较长，内部空间大，新旧胶卷可以上下排列；考虑到腰平取景，拍摄正方形或者landscape形状照片，导致画幅尺寸不超过6*6。而模块化单反很多都是“前后长”的外观，从前到后分别是镜头、反光镜箱（即机身）、胶卷后背三个组件，反光镜日常呈45度反射，拍摄时上翻到水平，所以反光镜箱的上下方并没有更多的空间需求，比成像面积稍微大一点点而已；胶卷后背的尺寸一般也就和机身一致，导致胶卷在后背里需要经过一个omega形状的弯曲才能放置。很多人因为不理解这个扭曲的走向，把胶卷装反，用背纸去接收光，最终拍摄失败。说说快门的区别：海鸥4A和Bronica ETRSi都是镜间快门，即快门是镜头的一部分。好处是可以在任意快门速度上实现闪光同步，坏处是镜头必须用与机身适配的型号，且安装拆卸镜头的时候要求机身镜头均已上弦。Mamiya M645是焦平面快门，取下胶卷后背即可看到机身后面的布帘，对这种相机，其实随便插个能完成光线调节的东西在前面都能拍。反光镜的区别：海鸥4A、Bronica ETRSi拍摄之后都是反光镜不复位的，到下次上弦的时候镜子才重新回到45度；M645Pro拍摄之后就回镜，对于高频抓拍略有一点点好处。多重曝光：ETRSi和M645Pro，其多重曝光开关其实就是个离合器，把胶卷后背的齿轮和机身齿轮分开，就能实现只上弦不过卷的功能；海鸥4A的我没看明白是咋回事，都隐藏在机器里面了。闪光灯：海鸥4A只能用PC线接闪光灯，且没有合适的安装位置，你需要一位摄影助理；ETRSi可以通过PC线，也可以通过选配的过片手柄上的ISO热靴；M645Pro机身左侧自带一个ISO热靴，但是Sony MI接口闪光灯的接口略微长一点儿，而M645Pro的热靴插口最前面有“墙”，导致插不到规定深度，电路无法接通。快门线：海鸥4A和ETRSi可以插机械快门线，也就是像自行车闸线似的那种，外面管道里面伸出钢丝那种；M645Pro需要一种特殊接口的电子快门线接通左侧的开关，在闲鱼我只看到一家卖这个的。自拍倒计时：海鸥4A在镜头上；ETRSi在镜头上；M645Pro在快门按钮旋转到倒计时模式。电池：海鸥4A不需要电池；ETRSi需要4LR44给电磁快门、测光取景器供电，没有电的时候提供一个固定速度的安全快门；M645Pro也需要4LR44电池，但是没电的时候就完全不能用了。 RB67，貌似中间的后背适配板是不带机械传动的，胶卷过片、镜头上弦、反光板翻转三个动作分离。海鸥4A，网上流传说如果先上弦再改快门速度，会断弦，我还没敢试……

Posted in 默认分类 | Leave a comment

Category Archives: 默认分类

开发Telegram bot的几点心得

在Python里抑制requests库的日志消息

GNU和BSD版本的xargs 分隔符不同

昨天遇到collectd exec插件的bug，顺便发现他们不按套路出牌啊

Tencent tlinux的$releasever比Redhat原版更反动

supervisor泄漏进程案例分析

滥用crond触发systemd-login故障一例

Reproducible builds 果然是很重要的

广东电信IPTV 华为EC6108v9c 的使用经验

浅谈用过的几台120相机

Meta

Blogroll

Mine

Category Archives: 默认分类

Tags

Meta

Blogroll

Mine