BADオープンデータ供養寺

GitHub
一覧に戻る| [供養塔]

判決PDFをパースする際にハマること

提供者:芝尾幸一郎

詳細ページへ

2020-12-13

最高裁の公開している判例PDFからプログラミングでテキストを読み出す際に、直面する困難あれこれについてまとめました。

一言で言うと

裁判所の出しているPDFは、人が読むことを前提としており、機械で読むことを想定していない。

入力データ

添付したURLの裁判官名などが顕著だが、PDFで読もうとすると

裁判官

裁判官

澤

眞

齋

岩

のように、きちんとも読めない。

出力データ

pdfplumberで読むと

同訴訟代理人弁護士      永島孝明

と一応きちんと出るようだ。

もっと詳しく