ブログ
-
雑記
2017年も終わる。縁を大事にしたい
もうすぐ2017年が終わる。実家に帰ってテレビを見ていると、今年あったことの特集が流れているけれど、まったくピンと来ない。 けれど、2017年は盛り沢山の年だった。食わず嫌いだったお金のことを勉強して、投資を始めた。仕事を辞めた。旧友に会った。転職した。東京に引っ越した。多分、転機の年として後年思い出すことになるだろうと思う... -
自宅サーバ/VPS/クラウド
初心者がAWSでとりあえず最初にWebサーバー立ち上げるまで
最近仕事で使うことになったので、AWS(Amazon Web Services)を急遽勉強している。さすがにネットに直に関係する分野なだけあり、入門的な記事は散らばっているが、AWSの変化が早いことや、立ち位置によって入門の意味が大きく違うために、どうにもイマイチ掴めない。 で、結局入門書を一冊購入し、そのとおりにやったつもりなのにやっぱりエ... -
プログラミング
Pandasで行の追加(縦方向の連結)の操作メモ
pythonのデータフレームライブラリPandasで、行の追加(縦方向の連結)の操作メモ。列の追加(横方向の結合)ではなく。一行だけ追加する感じで。 基本はappendとconcat。列名で一致しないところはNaNで埋められる。ついでにインデックスが重複する時はreset_index()。 やること pandasで行を追加する。たとえばdf1に一行だけのdf2を追加する... -
プログラミング
PDFから文章を抽出する
PDFファイルから文章を抽出するあれこれ。画像化されているやつはOCRをかけることになるが、本記事では対象外。Mac環境下で実行。 大きくわけて、コピペする、Adobe Reader DCを使う、pdftotextを使う、pythonのpdfminer.sixを使う、のパターンで。 ビューアで開いてコピペ 言わずもがな。PDFファイルを開いて、ビューアーからコピペする。原... -
プログラミング
seleniumのGoogle検索で最初にヒットしたサイトのスクリーンショットを撮る
最近クローラ+スクレイピングの勉強をしている。Web周りはこれまで不勉強だったものだから、非常に苦労している。種々のサイトを見ていると、サイトも色々だなぁと一サイトの管理人として思う。まぁWordPressをテンプレートそのまんまで使っているだけだが、それだけにこのサイトは扱いやすいだろうなと思う。 とはいえ世の中扱いづらいサイ... -
プログラミング
pythonでExcelファイル内の半角をすべて全角にする
表題のとおり。Excelファイル内の半角をすべて全角にする。住所録とかで、全角を指定されたり、とか。そういう時。人とやりとりしていると、Excelファイルは避けて通れないもので……。 Excelなのだから、Excel VBAでやるのが正道なのかもしれないけれど……わざわざ覚えるのもなー……ということで、python。便利なライブラリを開発してくれている... -
プログラミング
bashでスクレイピングする時のメモ
あまりすることはないと思うが、bashで簡易的にスクレイピングする時によく使うコマンドとかのメモ。基本は行単位の処理なので、お手軽さを求めるなら用途は限られるか…。でも前処理とかに便利かもしれないし……。 クローリング wgetでクローリング。 wget URL 再帰的にやるなら、たとえば以下。 wget -r --no-parent -w 1 -l 1 URL オプショ... -
Mac全般
見開きPDFを分割して1ページ単位のPDFにする
もらったPDFが見開きで1ページになっていることがある。しかしPDFをあれこれ加工したいとき、それでは何かと都合が悪い。なので、1ページ単位に分割したい。 そのためには、印刷機能を利用する。昔はAdobe Readerで普通にできたようだが、Adobeがせこく金を取り出したせいで面倒臭くなっている。検索するとその時々の情報が錯綜していてやや... -
プログラミング
youtube-dlで音声だけ抽出
古い記事です。今はyt-dlpです。少し高度になりますが参考記事も置いておきます。 youtube-dlはコマンドラインで使える、とっても便利なYoutubeのダウンローダー。youtube-dlを使って音声だけ抽出するメモ。怪しげなサイトを利用してなくて良いし、コマンドラインなら応用が効くので有難い。MacならHomebrewでインストールが楽。 使い方 Mac... -
Mac全般
Macでpdfから画像のみを抽出
表題どおり。Macでpdfファイルから画像のみを抽出する手段について。検索するとなんだか怪しげなのがよく出てきて微妙に困ったので。コマンドラインでやります。 やり方 Homebrewでpopplerをインストールする。 brew install poppler 下記コマンドを実行すると、test.pdfにある画像が、testなんとか、というファイル名で画像ファイルのみ抽出...