ブログ
-
プログラミング
Pandasでcsv, excelデータの読み込み・書き込み
Pandasでcsvおよびexcelデータについて、読み込みと書き込みをする。 環境はPython 3.6.3、Pandas 0.20.3。 やり方 pythonでcsvの読み書きにはcsvモジュールがあるし、excelファイルの読み込みにはxlrd、書き込みにはxlsxwriterなどがある。が、その後のデータの扱いなども考えると、pandasを使うのがやりやすい(内部的に何を使っているかは... -
プログラミング
pythonでcsvファイルの入出力。エンコードとか改行コードとか考慮しつつ
pythonにおけるcsvファイルの入出力について。csvは単なるテキストファイルであるけれど、文字コードやら改行コードやらクォーテーションの付け方やらを考えると、色々面倒臭い。 バージョンはpython3.6.4。Pandasは使わず標準のcsvライブラリでやる。たいていの場合Pandas使ったほうが楽ではある。 csvファイルの入出力 文字コードがsjisで... -
プログラミング
Pythonでファイル・ディレクトリ操作
pythonでファイルやディレクトリを扱うときに個人的によく使う操作。よく使う割によく忘れて毎回調べてしまっている…。ので、メモ。なおPython 3.6。 以下、osとshutilをインポートしつつ。「11.2. os.path — 共通のパス名操作 — Python 3.6.3 ドキュメント」とか見つつ。 ファイル f = 'hoge/hoge1/hoge2/hogehoge.txt' があるとして。 ファ... -
プログラミング
一括で複数の画像ファイルを余白つけて正方形にする
複数のサイズがまちまちな画像ファイルについて、一括でまとめて正方形にしたい。一辺の長さは縦幅と横幅のうち大きい方を採用し、足りない分は白または透明で塗りつぶす。 imagemagickを使ってシェルスクリプトで実装した。 ソースコード 環境はmacOS 10.13でGNU bash 3.2.57。 まず、余白をつけるのは以下のコマンド。 convert hoge.jpg -b... -
プログラミング
pythonで画像をダウンロードして、URLに応じてディレクトリ分けする
pythonで画像をダウンロードする。画像のURLに応じて、ディレクトリを分ける。たとえば、画像のURLがhttps://example.com/hoge/img/img01.jpg であったとしたら、example.com/hoge/img という階層構造ができるようにディレクトリを作成する。 ソースコード https://example.com/hoge/img/img01.jpg をダウンロードするとしてコードを書く。 ... -
雑記
謹賀新年。私もとうとう6ビット
あけましておめでとうございます。素数の年が終わりました。今年は偶数。本年もよろしくお願い致します。 今年はもっと素直に生きようと思います。でも多分、他人から見ると私は既に十分素直な人間なのだけれど。もっと。 6ビット 2018年が始まった。西暦は約数の少ない微妙な年だけれど、私は今年で32。2^5というたいへんキリの良い年齢。10... -
雑記
2017年も終わる。縁を大事にしたい
もうすぐ2017年が終わる。実家に帰ってテレビを見ていると、今年あったことの特集が流れているけれど、まったくピンと来ない。 けれど、2017年は盛り沢山の年だった。食わず嫌いだったお金のことを勉強して、投資を始めた。仕事を辞めた。旧友に会った。転職した。東京に引っ越した。多分、転機の年として後年思い出すことになるだろうと思う... -
自宅サーバ/VPS/クラウド
初心者がAWSでとりあえず最初にWebサーバー立ち上げるまで
最近仕事で使うことになったので、AWS(Amazon Web Services)を急遽勉強している。さすがにネットに直に関係する分野なだけあり、入門的な記事は散らばっているが、AWSの変化が早いことや、立ち位置によって入門の意味が大きく違うために、どうにもイマイチ掴めない。 で、結局入門書を一冊購入し、そのとおりにやったつもりなのにやっぱりエ... -
プログラミング
Pandasで行の追加(縦方向の連結)の操作メモ
pythonのデータフレームライブラリPandasで、行の追加(縦方向の連結)の操作メモ。列の追加(横方向の結合)ではなく。一行だけ追加する感じで。 基本はappendとconcat。列名で一致しないところはNaNで埋められる。ついでにインデックスが重複する時はreset_index()。 やること pandasで行を追加する。たとえばdf1に一行だけのdf2を追加する... -
プログラミング
PDFから文章を抽出する
PDFファイルから文章を抽出するあれこれ。画像化されているやつはOCRをかけることになるが、本記事では対象外。Mac環境下で実行。 大きくわけて、コピペする、Adobe Reader DCを使う、pdftotextを使う、pythonのpdfminer.sixを使う、のパターンで。 ビューアで開いてコピペ 言わずもがな。PDFファイルを開いて、ビューアーからコピペする。原...