目录
  • 1、引言
  • 2、代码实战
    • 2.1 模块介绍
    • 2.2 安装
    • 2.3 代码实例
    • 2.4 拓展
  • 3、总结

    1、引言

    小鱼:小屌丝,你这是干啥呢?

    小屌丝:我的女神想要这个网页的内容。

    小鱼:那你也不能这一点点的复制粘贴啊,

    小屌丝:为了我的女神,再辛苦我都愿意…

    小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

    小屌丝:我的女神还要把这些内容转换成PDF,

    小鱼:你的女神事可真多…

    小屌丝:鱼哥,你有什么好的法子吗?

    小鱼:嗯,办法嘛,确实有

    小屌丝:我懂。

    小鱼:…上道这么快,果然为了你的女神,你什么都舍得,我也不磨叽了,直接上教程。

    2、代码实战

    关于网页的内容转换成PDF,通常思路:

    • 爬取网页内容
    • 保存到本地
    • 转换成PDF文档

    这种方法, 确实可以实现,但是,很麻烦,需要转两次。

    而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

    2.1 模块介绍

    2.1.1 pdfkit

    pdfkit 是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

    2.2 安装

    pip install pdfkit

    其它安装方式,直接看这两篇:

    《Python3自动安装第三方库,跟pip说再见》

    《Python:一行代码,导入Python所有库》

    敲黑板:

    pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

    wkhtmltopdf官网

    2.3 代码实例

    2.3.1 URL 对应网页转 PDF

    代码示例:

    # -*- coding:utf-8 -*-
    # @Time   : 2022-06-12
    # @Author : carl_DJ
    
    import pdfkit
    
    'URL 对应网页转 PDF'
    #wkhtmltopdf.exe 为本地安装的路径
    config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
    #调用pdfkit.from_url参数,转换PDF
    pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)
    

    运行结果:

    Python3实现网页内容转换成PDF文档和图片

    2.3.2 HTML 文件转 PDF

    代码示例:

    # -*- coding:utf-8 -*-
    # @Time   : 2022-06-12
    # @Author : carl_DJ
    
    import pdfkit
    
    'HTML 文件转 PDF'
    config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
    #调用pdfkit.from_file参数,转换PDF
    pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)
    

    敲黑板

    读取html,需要调用pdfkit.from_file 参数。

    2.3.3 字符串转 PDF

    代码示例:

    # -*- coding:utf-8 -*-
    # @Time   : 2022-06-12
    # @Author : carl_DJ
    
    import pdfkit
    
    '字符串转 PDF'
    config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
    #调用pdfkit.from_file参数,转换PDF
    pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)
    

    运行结果

    Python3实现网页内容转换成PDF文档和图片

    2.4 拓展

    小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

    小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

    小屌丝:也行,能少些一行是一行。

    2.4.1 网页转换PDF

    开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

    于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

    代码示例

    第一步、找到wkhtmltopdf的安装路径,以小鱼的为例:

    D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe

    第二步、powershell打开,输入命令

    .\wkhtmltopdf.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.pdf

    运行结果

    Python3实现网页内容转换成PDF文档和图片

    解析

    • .\wkhtmltopdf.exe :调用wkhtmltopdf.exe
    • https://blog.csdn.net/wuyoudeyuer?type=blog:url地址
    • D:\carl.pdf:保存的路径

    2.4.2 网页转换图片

    代码示例

    我们来试一下网页转换成图片,

    同样,

    第一步、打开powershell,进入到bin文件夹下

    第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

    运行结果

    Python3实现网页内容转换成PDF文档和图片

    3、总结

    今天的分享,就到这里了。

    是不是奇奇怪怪的姿势,又增加了呢。

    我们总结一下今天的内容:

    pdfkit 可以可以实现的转换:

    • URL 对应网页转 PDF
    • html文件转 PDF
    • 字符串转 PDF

    wkhtmltopdf.exe可以实现的转换:

    • 网页转图片
    • 网页转 PDF
    声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。