判決PDFをパースする際にハマること
提供者:芝尾幸一郎
詳細ページへ
2020-12-13
最高裁の公開している判例PDFからプログラミングでテキストを読み出す際に、直面する困難あれこれについてまとめました。
一言で言うと
裁判所の出しているPDFは、人が読むことを前提としており、機械で読むことを想定していない。
入力データ
添付したURLの裁判官名などが顕著だが、PDFで読もうとすると
裁判官
裁判官
澤
眞
齋
岩
のように、きちんとも読めない。
出力データ
pdfplumberで読むと
同訴訟代理人弁護士 永島孝明
と一応きちんと出るようだ。
もっと詳しく