プログラミング– category –
-
プログラミング
Pythonでファイル・ディレクトリ操作
pythonでファイルやディレクトリを扱うときに個人的によく使う操作。よく使う割によく忘れて毎回調べてしまっている…。ので、メモ。なおPython 3.6。 以下、osとshutilをインポートしつつ。「11.2. os.path — 共通のパス名操作 — Python 3.6.3 ドキュメント」とか見つつ。 ファイル f = 'hoge/hoge1/hoge2/hogehoge.txt' があるとして。 ファ... -
プログラミング
一括で複数の画像ファイルを余白つけて正方形にする
複数のサイズがまちまちな画像ファイルについて、一括でまとめて正方形にしたい。一辺の長さは縦幅と横幅のうち大きい方を採用し、足りない分は白または透明で塗りつぶす。 imagemagickを使ってシェルスクリプトで実装した。 ソースコード 環境はmacOS 10.13でGNU bash 3.2.57。 まず、余白をつけるのは以下のコマンド。 convert hoge.jpg -b... -
プログラミング
pythonで画像をダウンロードして、URLに応じてディレクトリ分けする
pythonで画像をダウンロードする。画像のURLに応じて、ディレクトリを分ける。たとえば、画像のURLがhttps://example.com/hoge/img/img01.jpg であったとしたら、example.com/hoge/img という階層構造ができるようにディレクトリを作成する。 ソースコード https://example.com/hoge/img/img01.jpg をダウンロードするとしてコードを書く。 ... -
プログラミング
Pandasで行の追加(縦方向の連結)の操作メモ
pythonのデータフレームライブラリPandasで、行の追加(縦方向の連結)の操作メモ。列の追加(横方向の結合)ではなく。一行だけ追加する感じで。 基本はappendとconcat。列名で一致しないところはNaNで埋められる。ついでにインデックスが重複する時はreset_index()。 やること pandasで行を追加する。たとえばdf1に一行だけのdf2を追加する... -
プログラミング
PDFから文章を抽出する
PDFファイルから文章を抽出するあれこれ。画像化されているやつはOCRをかけることになるが、本記事では対象外。Mac環境下で実行。 大きくわけて、コピペする、Adobe Reader DCを使う、pdftotextを使う、pythonのpdfminer.sixを使う、のパターンで。 ビューアで開いてコピペ 言わずもがな。PDFファイルを開いて、ビューアーからコピペする。原... -
プログラミング
seleniumのGoogle検索で最初にヒットしたサイトのスクリーンショットを撮る
最近クローラ+スクレイピングの勉強をしている。Web周りはこれまで不勉強だったものだから、非常に苦労している。種々のサイトを見ていると、サイトも色々だなぁと一サイトの管理人として思う。まぁWordPressをテンプレートそのまんまで使っているだけだが、それだけにこのサイトは扱いやすいだろうなと思う。 とはいえ世の中扱いづらいサイ... -
プログラミング
pythonでExcelファイル内の半角をすべて全角にする
表題のとおり。Excelファイル内の半角をすべて全角にする。住所録とかで、全角を指定されたり、とか。そういう時。人とやりとりしていると、Excelファイルは避けて通れないもので……。 Excelなのだから、Excel VBAでやるのが正道なのかもしれないけれど……わざわざ覚えるのもなー……ということで、python。便利なライブラリを開発してくれている... -
プログラミング
bashでスクレイピングする時のメモ
あまりすることはないと思うが、bashで簡易的にスクレイピングする時によく使うコマンドとかのメモ。基本は行単位の処理なので、お手軽さを求めるなら用途は限られるか…。でも前処理とかに便利かもしれないし……。 クローリング wgetでクローリング。 wget URL 再帰的にやるなら、たとえば以下。 wget -r --no-parent -w 1 -l 1 URL オプショ... -
プログラミング
youtube-dlで音声だけ抽出
youtube-dlはコマンドラインで使える、とっても便利なYoutubeのダウンローダー。youtube-dlを使って音声だけ抽出するメモ。怪しげなサイトを利用してなくて良いし、コマンドラインなら応用が効くので有難い。MacならHomebrewでインストールが楽。 使い方 MacでインストールするならHomebrewが楽。 brew install youtube-dl ffmpeg ffmpegは変... -
プログラミング
pythonのxlsxwriterでフォーマットの上書きをしたいが…
pythonでExcel形式のxlsxファイルを作成するのに、xlsxwriterモジュールを使わせてもらっている。とても便利で良いものだが、フォーマット関係で手こずった。具体的には、データ入力後、列単位でフォーマットを変更しようとしても、データ入力時のフォーマットが優先されてしまうこと。これは現在の仕様であるらしい。その対応のメモ。 やり...