2025年10月 – ページ 2 – long forgotten now…

SpeechAnalyzerによる音声文字起こしの罠

speech-to-text技術

SFSpeechRecognizer
- Siri 有効化必須がデメリット
- オンデバイス・クラウドどちらでもOK
- 長さ制限あり
SFSpeechRecognizer
- 遠距離可能
- オンデバイスのみ
- リアルタイム、音声ファイル両方OK
- 事前のモデルダウンロードが不要
- 純正アプリで使用されている

精度比較

SpeechAnalyzer の方が検出文字数多い
音の拾いやすさ、検出精度は圧倒的に向上、文字起こし品質も向上
横文字、専門用語も対応

SpeechAnalyzer の罠

リアルタイムもファイルも可能だが、リアルタイムは音の拾いやすさが致命的に悪い
- 机の向こう側とか声も取れない
ファイル起こし → SpeechAnalyzer に渡すことで劇的改善

現状、ネット上ではこの問題が報告されていない

オーディオファイルからの speech-to-text 実装紹介

LLM のように asyc でインクリメンタルに結果が返ってくる

久々に登壇してきたので記録。

イベントページ：extension DC 2025 Day1@DeNA

夏から取り組み始めていたFoundation Models + RAG の集大成？を発表。結果的にFM側の挙動で綺麗な結果にはならなかったが、、RAGの一翼を担う自前の検索エンジンとしてはきちんと良い結果が出たので、その実装方法を中心にシェアした。

スライドは40枚作っていたが、何度練習しても5分に収まるかは一か八かだったので、会場でトピック丸ごと（この記事の内容）省略した。そのおかげで早口ながら完走はできたのでよかった。アップロードしたスライドには、スキップした内容も復活しておいた。

Apple で開催された Foundation Models のワークショップでたくさんサポートくださった武石さんともお会いでき、FMの挙動について具体で相談させていただき追加でアドバイス頂けたので、試してみたい。

参加メモ：新しいFoundation Modelフレームワークのアプリへの導入（ワークショップ）@Apple Japan

発表後、さまざまな方にお声がけいただき、中にはこのセッションのために来たとおっしゃってくれる方や、今回発表のアプローチを自社プロダクトへ実装検討されている方も何名かいらっしゃって、今回の内容が少しでもお役に立てれば何より。

発表内で紹介した検証は、パラグラフにも満たない短文と、30という限られたドキュメント量でしか試していないので、実運用するデータ規模によっては性能限界があるかもしれない。今回触れなかった文章の細分化や、プーリングのアルゴリズムを変更するなどチューニングの余地は多く残されている。

まだ道半ばなので、今後も試行錯誤を続けていくがその過程は都度「Foundation Models」でタグ付けしていく。

https://p0dee.com/blog/tag/foundation-models

最後に、ここまでの軌跡において救世主となった武石さんのポストに改めて感謝！

Foundation Modelsのチップスです。
現状Foundation Modelsのセッションあたり4096tokenが上限となっており、超えてしまうとexceededContextWindowSizeが返ってきます。…
— Shun Takeishi (@ShunTakeishi) August 21, 2025

会場からの帰り道になぜかYouTuberに捕まって、「あなたの人生を語ってください」的なよくある企画に巻き込まれ、日が変わるまで沖縄料理屋で飲んでた。

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

月: 2025年10月

聴講メモ：extension DC 2025 Day2 @Sansan

SpeechAnalyzerによる音声文字起こしの罠

Liquid GlassとAppIntentsについての考察

登壇メモ：extension DC 2025 Day1 @DeNA