昨日に引き続き、extension DC Day 2 に参加。Liquid Glass デザインの話から、ショートカット の話までさまざま。Foundation Models のプロンプトテクニックが素晴らしそうで、発表者の Fujimon さんにお話伺おうと思っていたが、筆者がすっかりお友達と話し込んでいるうちに時間が来てしまった。明日の Day 3 もいらっしゃるそうなので、チャンスがあれば。
イベントページ:https://sansan.connpass.com/event/362403/
SpeechAnalyzerによる音声文字起こしの罠
Musa さん
- speech-to-text技術
SFSpeechRecognizer- Siri 有効化必須がデメリット
- オンデバイス・クラウド どちらでもOK
- 長さ制限あり
SFSpeechRecognizer- 遠距離可能
- オンデバイスのみ
- リアルタイム、音声ファイル 両方OK
- 事前のモデルダウンロードが不要
- 純正アプリで使用されている
- 精度比較
SpeechAnalyzerの方が検出文字数多い- 音の拾いやすさ、検出精度は圧倒的に向上、文字起こし品質も向上
- 横文字、専門用語も対応
SpeechAnalyzerの罠- リアルタイムもファイルも可能だが、リアルタイムは音の拾いやすさが致命的に悪い
- 机の向こう側とか声も取れない
- ファイル起こし →
SpeechAnalyzerに渡すことで劇的改善
- リアルタイムもファイルも可能だが、リアルタイムは音の拾いやすさが致命的に悪い
- 現状、ネット上ではこの問題が報告されていない
- オーディオファイルからの speech-to-text 実装紹介
- LLM のように asyc でインクリメンタルに結果が返ってくる
Liquid GlassとAppIntentsについての考察
touyou さん
“聴講メモ:extension DC 2025 Day2 @Sansan” の続きを読む