聴講メモ:extension DC 2025 Day2 @Sansan

昨日に引き続き、extension DC Day 2 に参加。Liquid Glass デザインの話から、ショートカット の話までさまざま。Foundation Models のプロンプトテクニックが素晴らしそうで、発表者の Fujimon さんにお話伺おうと思っていたが、筆者がすっかりお友達と話し込んでいるうちに時間が来てしまった。明日の Day 3 もいらっしゃるそうなので、チャンスがあれば。

イベントページ:https://sansan.connpass.com/event/362403/


SpeechAnalyzerによる音声文字起こしの罠

Musa さん

  • speech-to-text技術
    • SFSpeechRecognizer
      • Siri 有効化必須がデメリット
      • オンデバイス・クラウド どちらでもOK
      • 長さ制限あり
    • SFSpeechRecognizer
      • 遠距離可能
      • オンデバイスのみ
      • リアルタイム、音声ファイル 両方OK
      • 事前のモデルダウンロードが不要
      • 純正アプリで使用されている
  • 精度比較
    • SpeechAnalyzer の方が検出文字数多い
    • 音の拾いやすさ、検出精度は圧倒的に向上、文字起こし品質も向上
    • 横文字、専門用語も対応
  • SpeechAnalyzer の罠
    • リアルタイムもファイルも可能だが、リアルタイムは音の拾いやすさが致命的に悪い
      • 机の向こう側とか声も取れない
    • ファイル起こし → SpeechAnalyzer に渡すことで劇的改善
  • 現状、ネット上ではこの問題が報告されていない
  • オーディオファイルからの speech-to-text 実装紹介
    • LLM のように asyc でインクリメンタルに結果が返ってくる

Liquid GlassとAppIntentsについての考察

touyou さん

“聴講メモ:extension DC 2025 Day2 @Sansan” の続きを読む

登壇メモ:extension DC 2025 Day1 @DeNA

久々に登壇してきたので記録。

イベントページ:extension DC 2025 Day1@DeNA

夏から取り組み始めていたFoundation Models + RAG の集大成?を発表。結果的にFM側の挙動で綺麗な結果にはならなかったが、、RAGの一翼を担う自前の検索エンジンとしてはきちんと良い結果が出たので、その実装方法を中心にシェアした。

スライドは40枚作っていたが、何度練習しても5分に収まるかは一か八かだったので、会場でトピック丸ごと(この記事の内容)省略した。そのおかげで早口ながら完走はできたのでよかった。アップロードしたスライドには、スキップした内容も復活しておいた。

Apple で開催された Foundation Models のワークショップでたくさんサポートくださった武石さんともお会いでき、FMの挙動について具体で相談させていただき追加でアドバイス頂けたので、試してみたい。

参加メモ:新しいFoundation Modelフレームワークのアプリへの導入(ワークショップ)@Apple Japan


発表後、さまざまな方にお声がけいただき、中にはこのセッションのために来たとおっしゃってくれる方や、今回発表のアプローチを自社プロダクトへ実装検討されている方も何名かいらっしゃって、今回の内容が少しでもお役に立てれば何より。

発表内で紹介した検証は、パラグラフにも満たない短文と、30という限られたドキュメント量でしか試していないので、実運用するデータ規模によっては性能限界があるかもしれない。今回触れなかった文章の細分化や、プーリングのアルゴリズムを変更するなどチューニングの余地は多く残されている。

まだ道半ばなので、今後も試行錯誤を続けていくがその過程は都度「Foundation Models」でタグ付けしていく。

https://p0dee.com/blog/tag/foundation-models

最後に、ここまでの軌跡において救世主となった武石さんのポストに改めて感謝!


会場からの帰り道になぜかYouTuberに捕まって、「あなたの人生を語ってください」的なよくある企画に巻き込まれ、日が変わるまで沖縄料理屋で飲んでた。