GeekByeとは何ですか？

通話を聞いて、難しい質問にその場で回答するのを助けるリアルタイムAIアシスタントです。会話をライブで文字起こしし、システム上で目に見えず動作します - あなただけが見ることができます。

どんな人向けですか？

プレッシャーのかかる会話をする方向けです。技術面接に臨む求職者、異議に対応する営業担当者、口頭試験を受ける学生、重要な会議に出席する役員など。難しいトピックについて自信を持って話す必要がある方のためのツールです。

議事録ツールと何が違いますか？

ほとんどのAIツールは会議終了後に要約を作成します。GeekByeはリアルタイムで動作し、質問されたその場で回答を提供し、会話中にトークポイントを表示します。まるで耳元で専門家がささやいてくれるような感覚です。

通話中の他の人に見えますか？

いいえ。GeekByeはローカルで動作し、参加者やボットとして参加しません。オーバーレイはあなたにだけ見えます - 画面録画、画面共有、参加者リストには表示されません。

どのプラットフォームに対応していますか？

Zoom、Microsoft Teams、Google Meet、Webex、およびすべてのブラウザベースのプラットフォーム。Zoomの場合：バージョン6.1.6以前を使用するか、[ウィンドウフィルタリングを使用した高度なキャプチャ](https://support.zoom.us/hc/en/article?id=zm_kb&sysparm_article=KB0063824#:~:text=Advanced%20capture%20with%20window%20filtering,from%20the%20Zoom%20desktop%20app.)を有効にしてください。

無料プランには何が含まれていますか？

月間のAI回答数に制限がありますが、いくつかの面接や会議でテストするには十分です。すべての基本機能を利用できます。Proプランでは制限が解除され、多言語サポートも追加されます。

データは安全ですか？

はい。データは暗号化されており、情報を販売することはありません。

GeekByeはコーディング面接で使えますか？

はい。GeekByeはリアルタイムで画面をキャプチャし、アルゴリズムの問題、システム設計の質問、デバッグの課題、コード最適化のソリューションを提供します。あらゆるコーディング環境やオンライン評価プラットフォームで動作します。

行動面接でも役立ちますか？

もちろんです。GeekByeは行動面接の質問を聞き、構造化されたSTARメソッドの回答、関連するトークポイント、会話のコンテキストに基づくフォローアップの回答を提案します。

GeekByeはどの言語に対応していますか？

GeekByeは文字起こしとAI回答の両方で33言語に対応しています。文字起こし言語をAI出力言語とは別に設定できるため、英語で面接を受ける非ネイティブ英語話者に便利です。

AI回答の速度はどのくらいですか？

ショートカットを押してから2〜3秒以内に回答のストリーミングが始まります。会話を続けている間にAIがすぐに生成を開始するため、気まずい沈黙はありません。

macOSとWindowsの両方で動作しますか？

はい。GeekByeはmacOS（14.0 Sonoma以降）とWindowsの両方でネイティブに動作します。画面キャプチャの不可視性は、ネイティブのOSレベルのコンテンツ保護を使用して両方のプラットフォームで機能します。

面接官はGeekByeを検出できますか？

いいえ。GeekByeはOSのネイティブコンテンツ保護を使用して、すべての画面キャプチャ、録画、共有から自身を除外します。ボットや参加者として通話に参加することはありません。ブラウザ拡張機能も、注入コードも、ネットワークの痕跡もありません。

会議が終わるとどうなりますか？

GeekByeは重要ポイント、アクションアイテム、改善提案を含む完全な会議サマリーを生成します。さらに、6つのコミュニケーション指標に基づいてパフォーマンスを評価し、トランスクリプトに基づいた具体的なフィードバックを提供します。

文字起こしはどのように機能しますか？

GeekByeはマイクの音声と会議プラットフォームのシステム音声を同時にキャプチャします。AIの音声認識を使用してリアルタイムで文字起こしするため、会話の両者の完全な記録を取得できます。

会議の長さに制限はありますか？

いいえ。無料プランとProプランの両方で無制限の会議時間をサポートしています。文字起こしは会議が続く限り中断やカットオフなしで継続的に実行されます。

GeekByeを営業通話に使えますか？

はい。営業のプロフェッショナルはGeekByeを使って、リアルタイムで異議に対処し、交渉戦術のコーチングを受け、クライアント通話中に即座にトークポイントを取得しています。あらゆる会議プラットフォームで動作します。

他に何かインストールする必要がありますか？

macOSでは、BlackHole仮想オーディオドライバー（無料、オープンソース）をインストールすると、文字起こし用のシステム音声キャプチャが有効になります。Windowsでは追加ソフトウェアは不要です。GeekByeがその他すべてを処理します。

いつでもサブスクリプションをキャンセルできますか？

はい。Proサブスクリプションはいつでもキャンセルできます。現在の請求期間の終了まではアクセスが継続します。Lifetimeプランは一回限りの購入で、定期的な課金はありません。

GeekByeは面接の録音を保存しますか？

すべての文字起こしと録音は、暗号化されたデータベースでデバイスにローカル保存されます。クラウドサーバーにはアップロードされません。データの閲覧、エクスポート、削除はいつでも自由に行えます。

キーボードショートカットはどのように機能しますか？

Cmd+Enter（macOS）またはCtrl+Enter（Windows）を押して画面をキャプチャし、即座にAI回答を取得します。Cmd+Shift+.を押して会議レポートを開きます。セットアップ時に3つのプリセットショートカットスキームから選択して、コードエディタとの競合を避けることができます。

AI文字起こしはなぜ専門用語を聞き間違えるのか(そして私たちはどう直したか)

7月2日、私たちはテストセッションを実施し、GeekByeに向かって声でシンプルな質問をしました。"What is the pointer in C++?"(C++のポインタとは何か?)

ライブトランスクリプトは詩的な答えを返してきました:

[23:16:37] You: Tell me, what is the point in life? [23:16:52] You: Handy Plus. [23:17:02] You: What the pointer in Plus Plus? [23:17:09] You: C.

「pointer in C++(C++のポインタ)」が「point in life(人生の意味)」に化けたわけです。同じセッションのヘルスメトリクスが残りを物語っていました。163秒間に3回の文字起こし接続切断、そしてトランスクリプトに空いた51秒の穴。さらに、後で最も重要だと分かる手がかりがもう一つ。ローカルに保存された音声を再文字起こしして欠落を埋めるセッション後のリカバリ処理は、この文をほぼ正しく認識していました: "a pointer in plus, plus? What the pointer in plus, plus C++."

音声自体には何の問題もありませんでした。ライブモデルには、C++を予期する理由がなかっただけなのです。

これはGeekBye v2.0.11の物語を、実際のトランスクリプトと本番ログから語ったものです。

なぜ音声モデルはあなたの語彙を聞き間違えるのか

音声認識は予測問題です。曖昧な音声が与えられたとき、モデルは最も可能性の高い単語を選びます — 汎用モデルにとって、「point in life」は「pointer in C++」よりはるかにありそうなフレーズなのです。会議のトランスクリプトでKubernetesが「cube and eddies」と書き起こされるのを見たことのあるエンジニアなら、誰もがこの失敗に出会っています。

解決策は、より良いマイクではありません。keytermバイアスです。セッション開始前に、「一般的には珍しいが、あなたにとっては出現しやすい単語」をモデルに伝えること。私たちの音声プロバイダはセッションあたり最大50個のバイアス用語をサポートしています。ここが恥ずかしいところです。これらの用語のための配管は、クライアント、バックエンド、プロバイダと、スタック全体にエンドツーエンドで存在していました — しかし、そこに値を入れるものが何一つなかったのです。すべてのセッションが、ドメインの助けゼロで走っていました。

修正1: プロファイルがモデルの語彙になる

GeekByeはすでにあなたのドメインを知っています — アクティブなプロファイルに書いてあるからです。v2.0.11は、プロファイルの名前と説明からバイアス用のkeytermsを導出します。記号を含む用語(C++、Node.js)、頭字語(SQL、AWS)、キャメルケースの名前(TypeScript、PostgreSQL)、そして固有名詞。あなたのスタックに言及したプロファイルは、そのスタックを「珍しいもの」ではなく「期待されるもの」に変えます。

修正がすべてを悪化させた日

最初のバージョンは、大文字で始まる単語をすべて固有名詞として扱っていました。社内テストビルドで(これは顧客には一切届いていません)、散文で書かれたプロファイルが、次のバイアスリストをモデルに送っていました:

Senior, Writing, Direct, For, Includes, Write, Role, Intent…

音声モデルを「For」という単語に向けてバイアスするのは、バイアスしないより悪い。直後のテストセッションでは、はっきりと何度も発話した「speak」という単語が、"Clicky"、"Hey, Vicky"、*"Peter Paderty"*として返ってきました。この教訓には午後いっぱいの代償を払いました: バイアスは際立った用語だけで行う。大文字始まりの単語は、文中に現れた場合のみカウントされるようになりました(本物の固有名詞シグナルだからです)。すべての単語が大文字化されるmarkdownの見出しは、一切寄与しません。同じプロファイルは今では正確に LinkedIn, AI, CEO, MCP を導出します — そして検証セッションでは、多言語で高速に切り替わる音声を199秒連続で正しく文字起こしし、トランスクリプトセグメントは189個、エラーはゼロでした。

修正2: 接続を切断していた競合

keytermsは聞き間違いを説明しました。しかし3回の接続切断は説明できませんでした。

その手がかりは、もっと微妙な場所につながっていました。私たちのプロバイダは、自身の音声区間検出(VAD)に基づき、無音から約1秒で文字起こしをコミット(確定)します。私たちのクライアントも、宙に浮いた文の断片をフラッシュするために、無音から250ミリ秒でセーフティコミットを送ります。プロバイダから「すでにコミット済み」という確認が返ってくるまでには1〜3秒かかります。この3つの数字で計算してみてください。プロバイダが先にコミットした場合、私たちのセーフティコミットはほぼ空のバッファに対して発火します — そして、それに対するプロバイダの応答は、丁寧な拒否ではありませんでした。接続を切断したのです。 発話の合間の一時停止は、すべてコイントスでした。

v2.0.11は、これに対して2つの防御層を出荷します:

アプリ側: コミット済みトランスクリプトが到着した時点で、クライアントはプロバイダのバッファがフラッシュされた直後であることを把握し、冗長なセーフティコミットをスキップします。
バックエンド側(同日): アプリとプロバイダの間に位置するプロキシが、プロバイダの音声アカウンティングを正確にミラーリングします — すべての音声フレームとすべてのコミット確認をレイテンシゼロで見ているので、プロバイダが拒否するであろうコミットの転送そのものを拒否します。こちらは、まだアップデートしていないユーザーを含む、すべてのクライアントバージョンを一度に保護します。

本番環境で動くのを1時間以内に確認しました。ガードは、バッファ音声178msと256msを抱えた「破滅コミット」を捕捉しました — その日より前なら、そのどちらもが確実な接続切断であり、誰かの会議メモの空白でした。その日の午後の60分間の連続セッションでは、5回の捕捉とゼロ切断を記録。修正前、同じ日の朝には、実際のユーザーがまさにこのバグと格闘して、6分間に5回録音を再起動していました。

同乗する2つの小さな修正

AIインサイトは中身が揃うまで待つようになりました。 序盤の文字化けした断片は、これまでGeekByeのライブ提案チップに流れ込み、聞き間違えたC++の質問から「Defining Life's Ultimate Purpose(人生の究極の目的を定義する)」のようなトピックを自信満々に生成していました。提案は、セッションに本物の会話の質量が溜まるまで待つようになりました。

リカバリされたテキストに正しい話者が付くようになりました。 私たちのC++の質問を正しく文字起こししたリカバリ処理は、それを「Them」(相手)に帰属させていました。ローカル保存される音声タイムラインが誰の発話かを記録するようになったので、リカバリされたセグメントはYouまたはThemに正しく帰属します。

スコアボード

指標(実測値、推定ではない)	修正前	v2.0.11+バックエンドガード適用後
テストセッションでの接続切断	163秒間に3回	0
最長のトランスクリプトの穴	51秒	検証時の最悪ギャップ約6秒
"pointer in C++"	"point in life"	正しく認識(バイアス済み語彙)
プロバイダに届く破滅コミット	すべて	0(バックエンドで捕捉)

リアルタイム音声APIの上に構築しているなら

このリリースから持ち帰れる、3つの汎用的な教訓:

バイアス機能に餌を与える。 STTプロバイダがkeyterms/フレーズヒントをサポートしているなら、小さく、際立った語彙を投入することは、手に入る中で最も安上がりな精度向上です — そして、ありふれた単語を投入することは精度の損失です。
ネットワーク往復の不利な側から、プロバイダ自身のステートマシンと競争しない。 私たちのクライアントは、250ms対3秒の情報競争に勝てませんでした。ガードは両方のシグナルが合流する場所に置くべきです — 私たちの場合、それはバックエンドプロキシでした。
公開前にライブビルドで検証する。 keytermsのリグレッションを捕まえられたのは、GeekByeのすべてのリリースが、出荷前に署名・公証済みビルドとして本番環境に対してテストされているからです。悪いバージョンは社内の1台のマシンに数時間存在しただけで、あなたのMacには存在していません。

GeekBye v2.0.11は現在公開中です — v2をお使いなら、自動アップデートですでに適用されています。このリリースの土台となった信頼性の取り組みについては、悪いWi-FiでAIノートテイカーが止まる理由とGeekBye v2の変更点をご覧ください。ライブ文字起こしの日常的な使い方については、GeekByeのリアルタイム文字起こしから始めてください。