学堂 学堂 学堂公众号手机端

爬虫加密字体解密

lewis 6年前 (2019-06-14) 阅读数 10 #技术


在爬取文本信息过程中 遇到字体是加密的
需要把 方块数字 转换为十进制
再根据woff文件中的映射关系进行对应转换
需要注意的是这个字体文件url是 每间隔几分钟就变化的 如发现和上一次请求的地址不一样 需要再次请求 新的woff文件
具体代码如下

from fontTools.ttLib import TTFont

if __name__ == '__main__':

    # 1 根据分析出来的关系,初始化 把cmap 中的name 与 网页显示文本映射关系
    relation_table = {'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5',
                      'six': '6', 'seven': '7', 'eight': '8', 'nine': '9'
                      }

    # 2 获取到提取到的UTF-8 的值
    text = '

版权声明

本文仅代表作者观点,不代表博信信息网立场。

热门