技術

技術

gpt-oss-20b + vLLM + RTX5090で数百Token/sくらいは出た

はじめに いいPCを買ってしまいました。嬉々としてスペック自慢できるタスクを回しています。今回はGPT-OSS-20bがRTX5090環境でどのくらい爆速になるのか見てみました。 ついでに、極めて楽にvLLMでgpt-oss-20bを動かす...
技術

コード分析にGemini+Obsidianを使う

ニーズ ちょっと大きめのUnityプロジェクトがあり、リファクタ+改善のためにC#スクリプトの構造を調べています。ただ、スクリプトが膨大で、なかなかハード・・・ ということで、何かしら効率化できないかと考えました。 フロー 1. Gemin...
技術

「Native Messaging」という技術でChrome拡張機能からpythonスクリプトを動かしました

導入 リンクの動画や音声をmp3でダウンロードするPythonスクリプトを昔作ったのですが、使うたびにURLをCUIにコピペするのがどうも面倒。なので、ブラウザのボタン一つで実行できる機能を実現できないか試しました。 結論から言うと無事動作...
技術

pyenv-winでpyenv updateができない話

pyenv-winで環境構築したい 音声再生を伴う簡単なアプリを作りたいと思ったのですが、WSL2上からだとどうも音声出力が面倒。仕方ないので、全く同じ環境をwindows上で再現しようと思い、windows版のpyenvを使って綺麗な環境...
技術

Chrome ウェブストアで拡張機能を公開した感想とか注意点とか

拡張機能を作ってみた ふと思い立って、拡張機能を公開してみることにしました。内容は、Geminiのチャット全文をhtmlとMarkdownとjsonにエクスポートするというシンプルなものです。ここで公開しています。試しにオープンソースにして...
技術

ゆっくりMovieMaker4のコマンドラインから、四国めたんTTSで音声生成をしてみた

YMM4 先日合成音声を初めて触ってみたのをきっかけに、簡単に字幕も作れるゆっくりムービーメーカーを触ってみています。(別にどういう動画を作りたいかというイメージはないんですが・・・)通常のボイスロイドなら何も工夫せずとも動きますが、例えば...
技術

PDFを翻訳して英語版と日本語版を並べて表示したいときの最適解

PDFを翻訳して並べてほしい 最近PDFのテキストで学習しているのですが、全部で何百ページもあり、英語であることもあり目が滑ってしまいます。せめて日本語翻訳したものが横にあるだけでも違うのではないかと思い調べてみたところ、処理時間自体は多少...
技術

Windows Media Playerがカバー画像を表示しない理由はタグのバージョンが違うから

メディアプレイヤーがカバー画像を表示してくれない! フォルダ内の各音声ファイルにカバー画像を埋め込んで、アルバム名とトラック名を設定して、フォルダ内にcover.jpgも配置して・・・なのにメディアプレイヤーでは画像が表示されない!なにゆえ...
技術

「zundamon-speech-webui」お試しと雑記

はじめに 試してみました。当方環境ではpytorchもCUDAも何もかも推奨バージョンとは違うので、まあ動かなそうだなと思いつつもやってみました。モノとしてはだいたいGPT-SoVITSをそのまま使っていているようですね。WSL環境です。 ...
技術

MMPoseの導入から使用例まで

はじめに 久しぶりにゴルフの打ちっぱなしに行ったんですが、自分のスイングを撮影してみたらあまりにも不格好でした。そこでふとスイングを分析できないかと思い、MMPoseというものを使用してみることにしました。 これにはpytorchとかnvc...