PDF_TO_IMAGES

更新时间:
复制为 MD 格式

PDF文件拆分为指定格式的图片,并以表的形式返回每页对应的图片内容。

语法

PDF_TO_IMAGES(content [, image_format] [, dpi] [, start_page] [, pages])

入参

参数

数据类型

是否必填

说明

content

VARBINARY

PDF文件内容。可以结合FETCH_CONTENT函数获取远程文件内容。

image_format

STRING

输出图片格式,支持'jpg''png'。默认值为'jpg'

dpi

INT

渲染分辨率,决定输出图片的清晰度。默认值为200

start_page

INT

起始页码,从0开始计数。不指定时默认从第一页开始处理全部页面。

pages

INT

要处理的页数,需要与start_page组合使用,不能单独指定。处理[start_page, start_page + pages)区间的页面。不指定时默认处理start_page及之后的全部页面。

出参

参数

数据类型

说明

mime_type

STRING

输出图片的内容类型,例如image/jpeg

page_no

INT

对应的PDF页码,从0开始计数。

image_content

VARBINARY

拆分出的图片内容。

示例

  • 测试语句

    SELECT
        p.mime_type AS mime_type,
        p.page_no AS page_no
    FROM (
        SELECT FETCH_CONTENT(pdf_url) AS pdf_content
        FROM (
            VALUES ('https://example.com/sample.pdf')
        ) T (pdf_url)
    ) AS t1,
    LATERAL TABLE(PDF_TO_IMAGES(t1.pdf_content, 'jpg', 150)) AS p(mime_type, page_no, image_content);
  • 测试结果

    mime_type(STRING)

    page_no(INT)

    image/jpeg

    0

    image/jpeg

    1

    image/jpeg

    2

    image/jpeg

    3