visionOS TC 2025 にプロポーザルを提出した

昨夜こんな投稿をしたのだが、

ふと、Vision Pro で長らくやりたかったことを思い出したので、プロポーザルを出してみた。

空間コンピューティングでOne more repを切り拓けるか

筋トレやってますか?
人類は、トレーニングの質を日々追い求め、対内外、五感、科学的/非科学的を問わずあらゆる工夫を編み出してきました。
食事、サプリ、シューズやウェア、モチベーションソング・・・
しかし未踏の領域は、まだ我々に残されているように思います。それは視覚です。

Vision Pro を手にした今こそ、ジムの退屈な風景を疑ってみませんか?
空間コンピューティングを活かし、ポージングと連動して視覚・聴覚を演出強化することで、パフォーマンスは増強するのか。限界突破(One more rep)に与するのか。

人体実験を通して、身体の可能性とインターフェースの未来に迫ります。

書いてある通り、visionOS のポージングやハンドトラッキング技術を使った視覚演出により、精神面を補助し、トレーニングの限界を突破できるのではないか?というアイデアがある。これを実証するために実は昨年末、自宅用のダンベル・ベンチセットを購入したのだが、ただのタンスの肥やしになってしまっていた。

技術的な具体性が一切ないので受けは良くない気がしている。具体で書いたら、やりたいことが簡単にイメージできそうなのであえて避けたのと、そもそも現時点まだ何も作っていないので、方針変えた時に逃げられないのもある。

昨日からプロポーザル投稿が増えてなかったのと、現状オモシロ系がなかったので、空気を変えようと若干ネタに走ってみたが、、夜中のテンションで書き上げたので、明日朝読みなおしたら普通に後悔してそう泣

visionOS TC 2025 のプロポーザル募集が開始

CyberAgent の SATOSHI さんが前々から企画をアナウンスしていた visionOS TC 2025 のプロボーザル募集がいよいよ開始された。

プロポーザル一覧:https://fortee.jp/visionos-tc-2025/proposal/all

visionOS 関連でひとつ今年のうちに LT やりたいと思っていたが、まだ叶っていない。格好のチャンスではあるが、ここ最近は Foundation Models につきっきりで、新しいことを試せていなかった。

今年見た WWDC セッションの中で面白いネタがないか探してみた。Clipping Margins 外にコンテンツを配置できる挙動について気になっていたので、この辺で遊んでみるとか、、


今年初旬まで精力的に取り組んでおきながら、途中で投げ出し放置状態になっているあるアイデアがあるのだが、その中でハンドジェスチャーに呼応した物体表面を波打たせる演出を考えており、実現方法を SATOSHI さんに相談する機会があった。その際教えていただいた LowLevelMesh をまだ試せてないので、ちょっと遊んでみるか。

プロトタイプ

締切まであと2週間と少し。限られた時間だが、着地が見込めそうであれば応募しよう。(精力的にプロポーザル出す人たちって、どの程度の準備状態で挑んでいるんだろうか?)

最近気になる電子ペーパーガジェット

先日、Amazon から新型 Kindle としてスタイラスで書き込みが行える Kindle Scribe の新モデルと、さらにカラーに対応した Kindle Scribe Colorsoft が発表された。日本での発売時期は未定。

Amazon Kindle Scribe, now in color—redesigned for productivity

説明を読む限りどうやら、付属のスタイラスは充電不要らしい。iPad の場合、Apple Pencil を充電し損ねて今この瞬間で使いたいという時に使えない、ということが多々あったので、もし本当にそうならかなり魅力的。

All of our devices come with a new pen that feels amazing in your hands, seamlessly attaches to Kindle Scribe so you never lose it, and still never needs to be charged.

実は Kindle は Kindle 2 の頃から使っていて、それから Kindle 3, Kindle 4 … と何台も購入してきた。特に2019 年に Kindle Oasis を買った頃は月10冊、年間100冊以上読むくらいにはヘビーユーザーだった。最近は読書量もめっきり減って、時々充電して漫画を読むくらい。それに Oasis の画面サイズは、読書には最適だが漫画を読むには心もとない。

Kindle 2 & Kindle Oasis

Scribe Colorsoft だと、11インチも画面サイズがあるのでその不安はなさそうだし、PDF化した文書(筆者の場合は楽譜)にスタイラスで書き込めるのも便利そう。

まあ、そんなこと iPad でも十分事足りるのだが、、とりあえず、何かすごく新しい体験を手に取ってみたいという気持ちが先行している。電子ペーパーでのリアルタイム書き込みを体験したことがないし、それがカラーになるとどんな感じなのか尚更気になってしょうがない。

そういえば、他にも注目している電子ペーパーデバイスがあり、re:Markable という製品だ。こちらも最近カラーに対応した。集中を削ぐスマホの通知から隔離し、静かな作業環境を実現するというのがコンセプト。コンセプトに筐体デザインに色々な面でツボなのだが、この手のベンチャーの製品は、いつサービスがクローズして使えなくなるかが見えないので、なかなか手を出しづらい。

reMarkable: The Paper Tablets for Focused Work | reMarkable


なんとあの万年筆で有名なモンブランからも、電子ペーパーデバイスが登場していた。

FM+RAG後日談:埋め込みベクトル化の精度改善

先日、Foundation Models で RAG を試みる内容を登壇したのだが、その時のスライドに添付したソースコードに誤りがあったので、以下ブログ記事に記載していたソースコードを修正した。

もともとはベクトル化対象のテキストを、トークン分割しつつ startIndex から endIndex まで手動で動かしながら畳み込みしていたものを、シンプルに enumerateTokenVectors(in:using:)  を使うようにしたら、↑記事で記載しているイマイチ精度が出ない問題を改善することができた。

以前の実装だと、何らかの条件で文字列最後までループが到達しないことが発生していたようだ。文頭の構文しかヒットしないという現象も、この原因を考えれば納得できる。


そもそも、ここで紹介している NLContextualEmbedding + mean pooling + L2 normalization で埋め込みベクトル化し、コサイン類似度を求める手法は、すでに以下のQiita記事で同じことが解説されていた。今後実装される方はこっちを参考にした方が幸せかもしれない。(もっと早く見つけたかった、、)

iOSに組み込まれたBERTでテキスト埋め込み・ベクトル検索をオンデバイス実行する #Mac – Qiita

聴講メモ:extension DC 2025 Day3 @ LINEヤフー

extension DC 3日目、初日登壇、残り2日は聴講者として全日参加することができた。三日間参加したくさん知見を得て、話せて充実した時間となり運営の方々には心から感謝。また、昨日お話しし損ねた Foundation Models の発表をされた Fujimon さんとも、ほぼ時間いっぱい独り占めさせていただき、昨日のプレゼン内容であったりプロンプトの工夫など色々と意見いただけた。

イベントページ:https://lycorptech-jp.connpass.com/event/362636/


マルチウィンドウ実践ガイド

tatsubee さん

  • フルスクリーン or ウィンドウ分割が選択可能
  • 柔軟なサイズ変更、複数開くことが可能、枚数上限が増えた
    • 前2つはすべてのアプリが対応するべき
    • 複数枚ウィンドウは、アプリにとっての強みポイント
  • 考慮したい点
    • ウィンドウコントロール
      • Toolbar 領域の先端に表示(信号機)
      • コンテンツ領域と重ならないように。toolbar 使えばOK
      • 使わない場合は手動調整が必要
        • GeometryReader で取得 containerCornerInsets
        • Safe Area の考慮も必要
        • アニメーション追加するとさらにいい感じに
      • UIKit の場合
        • layoutGuide
  • ウィンドウサイズ
  • 新しい Window を開く
    • OpenWindowAction
    • Drag & Drop
      • userActivity, handlesExternalEvents
    • 無数の Window が開ける
      • 何がどの Window か特定しやすくする必要がある:Window に名前をつける
      • navigationTitle が反映

実装で解き明かす並行処理の歴史:Swift ConcurrencyからNSThreadまで遡ろう

laprasDrum さん

“聴講メモ:extension DC 2025 Day3 @ LINEヤフー” の続きを読む

聴講メモ:extension DC 2025 Day2 @Sansan

昨日に引き続き、extension DC Day 2 に参加。Liquid Glass デザインの話から、ショートカット の話までさまざま。Foundation Models のプロンプトテクニックが素晴らしそうで、発表者の Fujimon さんにお話伺おうと思っていたが、筆者がすっかりお友達と話し込んでいるうちに時間が来てしまった。明日の Day 3 もいらっしゃるそうなので、チャンスがあれば。

イベントページ:https://sansan.connpass.com/event/362403/


SpeechAnalyzerによる音声文字起こしの罠

Musa さん

  • speech-to-text技術
    • SFSpeechRecognizer
      • Siri 有効化必須がデメリット
      • オンデバイス・クラウド どちらでもOK
      • 長さ制限あり
    • SFSpeechRecognizer
      • 遠距離可能
      • オンデバイスのみ
      • リアルタイム、音声ファイル 両方OK
      • 事前のモデルダウンロードが不要
      • 純正アプリで使用されている
  • 精度比較
    • SpeechAnalyzer の方が検出文字数多い
    • 音の拾いやすさ、検出精度は圧倒的に向上、文字起こし品質も向上
    • 横文字、専門用語も対応
  • SpeechAnalyzer の罠
    • リアルタイムもファイルも可能だが、リアルタイムは音の拾いやすさが致命的に悪い
      • 机の向こう側とか声も取れない
    • ファイル起こし → SpeechAnalyzer に渡すことで劇的改善
  • 現状、ネット上ではこの問題が報告されていない
  • オーディオファイルからの speech-to-text 実装紹介
    • LLM のように asyc でインクリメンタルに結果が返ってくる

Liquid GlassとAppIntentsについての考察

touyou さん

“聴講メモ:extension DC 2025 Day2 @Sansan” の続きを読む

登壇メモ:extension DC 2025 Day1 @DeNA

久々に登壇してきたので記録。

イベントページ:extension DC 2025 Day1@DeNA

夏から取り組み始めていたFoundation Models + RAG の集大成?を発表。結果的にFM側の挙動で綺麗な結果にはならなかったが、、RAGの一翼を担う自前の検索エンジンとしてはきちんと良い結果が出たので、その実装方法を中心にシェアした。

スライドは40枚作っていたが、何度練習しても5分に収まるかは一か八かだったので、会場でトピック丸ごと(この記事の内容)省略した。そのおかげで早口ながら完走はできたのでよかった。アップロードしたスライドには、スキップした内容も復活しておいた。

Apple で開催された Foundation Models のワークショップでたくさんサポートくださった武石さんともお会いでき、FMの挙動について具体で相談させていただき追加でアドバイス頂けたので、試してみたい。

参加メモ:新しいFoundation Modelフレームワークのアプリへの導入(ワークショップ)@Apple Japan


発表後、さまざまな方にお声がけいただき、中にはこのセッションのために来たとおっしゃってくれる方や、今回発表のアプローチを自社プロダクトへ実装検討されている方も何名かいらっしゃって、今回の内容が少しでもお役に立てれば何より。

発表内で紹介した検証は、パラグラフにも満たない短文と、30という限られたドキュメント量でしか試していないので、実運用するデータ規模によっては性能限界があるかもしれない。今回触れなかった文章の細分化や、プーリングのアルゴリズムを変更するなどチューニングの余地は多く残されている。

まだ道半ばなので、今後も試行錯誤を続けていくがその過程は都度「Foundation Models」でタグ付けしていく。

https://p0dee.com/blog/tag/foundation-models

最後に、ここまでの軌跡において救世主となった武石さんのポストに改めて感謝!


会場からの帰り道になぜかYouTuberに捕まって、「あなたの人生を語ってください」的なよくある企画に巻き込まれ、日が変わるまで沖縄料理屋で飲んでた。

MLTensor は行列計算の関数が充実している

SwiftでRAG実装 Part 2:クエリに類似するドキュメント検索の試み で実装していて気がついたのだが、MLTensor の API ドキュメントを眺めると行列計算の関数が充実しることを知って感動した。

MLTensor | Apple Developer Documentation

昔、SCNVector 同士の計算を実装しようとした時、ベクトルという名でありながらベクトル計算の API がまったくなかったので残念に思ったことがあったのでなおさら。

どんな関数があるかというと、行列とスカラの演算はもちろん、行列同士の内積、軸ごとの最大/平均/最小を求めたり、軸に沿って累積積を計算したり、1次元に再配列したり、とキリがない。どんなアウトプットになるのか試してみないとわからないものも多い。

ただ、Core ML のコンテクストで引き回すデータ表現としては MLTensor が相性良いものの、行列演算そのものの高速性を求めるなら、やはり Accelerate framework を使ったほうが良いらしい(ChatGPTによる)。

iPhone 17 Pro を購入した

iPhone 15 Pro から2年振り。今回はカメラ進化が大きく、写真撮影がメインの筆者にとっては買い替えは必須。色はディープブルー、容量は256GB。(iCloudの契約ストレージは5TB、、)

本当はおととい19日に手に入る予定だったが、帰省予定で実家宛に送っており、コロナ罹患が分かった時には配送先が変えられず、実家から転送してもらい受け取れたのが今日だった。

筐体はエッジが丸みを帯びていて、iPhone 15 Pro よりもアールが緩やかで手に馴染み、梨地仕上げのアルミ素材が背面まで回り込んでいるので手触りも優しいため、ケースをつけずに使っていたい気持ちになる。が、近い将来絶対に落とすし、いくら Ceramic Shield 2 とはいえ過度な信頼はできないので、ケースは必ず着ける。

ケースははじめ TechWoven のパープルを予約していたが、後から考え直してシリコンのオレンジを再注文した。商品ページではディープブルーの藍色とオレンジの明るさとの落差がおおきく一度は見送ったのだが、これまでも茶色(トープ)の FineWoven を使っていて、シックな色にも飽きたのが返品理由。あと、シンプルにウーブン系の素材に懲りたというのも、、TechWoven は改良されているに違いないが。

iPhone 17 Pro のディープブルーは、光の当たり方によっては意外と色味鮮やに映るので、オレンジのような彩度高い色との相性も問題ないと感じた。

筐体はディープブルーでありながら、新色コズミックオレンジ感も味わえてお得な組み合わせ。ジェネリック・コズミックオレンジ。

カメラもいくつか撮影して試してみたが、特に8倍の光学(品質の)ズームに関しては、今まで寄れなかった遠くのものまで鮮明に写せるのが嬉しいし、遠景前景との圧縮効果を生み出すこともできるので、これまでの iPhone ではかなわなかった構図を楽しめることが分かった。(8倍は実質4倍の部分拡大なので、「圧縮効果」というと語弊があることは承知、、)

デジタルズーム 40 倍だと、3キロ離れたオフィスビルもここまで映し出せる。

コロナに罹ってしまった

連休明けから喉が痛くて警戒していたが、案の定午後から発熱。翌日病院に行き抗原検査を受けたらあっさりコロナ認定されて頭が真っ白になった。週末が誕生日というのもあり盆休みからずらして5連休にし、帰省の予定を立てたり、いくつか人と会う約束もしていたのだが、、しょうがないので今年の誕生日は悪あがきせず、おとなしく家で過ごすことになった。

さらに不幸なことに、iPhone 17 Pro を日程的に実家で受け取ろうと配送先指定していたのだが、コロナ感染が判明したタイミングで配送先を変更することができなかった。ちなみに同時注文したケースは東京の自宅に届いたのだが、注文翌日に配送先変更したのが間に合わなかったのだろう。もしかすると本体も自宅に届くのではと、一縷の望みを抱きつつ荷物追跡をチェックしていたが、指定通りの実家へと飛び去っていくのをただ見守ることしかできなかった。

そんな今朝、1ヶ月前に注文した、4-way の教則本がようやく届いた。これを誕生日プレゼント代わりにパラパラめくることにする。ちなみに感染後3日経ったが、熱はおさまって身体は多少楽になった一方で、逆にウイルスが気管支に回ったから咳や鼻が徐々にひどくなっているし、全身の痛みも出てきたので、練習はとてもできる状態ではない。

4-way Coordination by Marvin Dahlgren and Elliot Fine