GeekBye คืออะไร?

ผู้ช่วย AI แบบเรียลไทม์ที่ฟังการโทรของคุณและช่วยตอบคำถามยากๆ ได้ทันที ถอดเสียงบทสนทนาสดและทำงานอย่างมองไม่เห็นบนระบบของคุณ มีแค่คุณเท่านั้นที่เห็น

เหมาะสำหรับใคร?

ทุกคนที่อยู่ในสถานการณ์กดดัน ไม่ว่าจะเป็นผู้หางานในการสัมภาษณ์เทคนิค พนักงานขายที่ต้องจัดการข้อโต้แย้ง นักศึกษาในการสอบปากเปล่า หรือผู้บริหารในการประชุมสำคัญ ถ้าคุณต้องการฟังดูมั่นใจในหัวข้อที่ยาก เราพร้อมช่วยคุณ

แตกต่างจากตัวจดบันทึกอย่างไร?

เครื่องมือ AI ส่วนใหญ่สร้างสรุปหลังประชุมจบ แต่ GeekBye ทำงานสด ตอบคำถามขณะที่ถูกถามและให้ประเด็นพูดระหว่างบทสนทนา เหมือนมีผู้เชี่ยวชาญกระซิบในหู

คนอื่นในการโทรจะเห็นมันไหม?

ไม่ GeekBye ทำงานบนเครื่องของคุณและไม่เคยเข้าร่วมเป็นผู้เข้าร่วมหรือบอท หน้าต่างแสดงผลมองเห็นได้เฉพาะคุณ จะไม่ปรากฏในการบันทึกหน้าจอ การแชร์หน้าจอ หรือรายชื่อผู้เข้าร่วม

รองรับแพลตฟอร์มใดบ้าง?

Zoom, Microsoft Teams, Google Meet, Webex และแพลตฟอร์มบนเบราว์เซอร์ทุกตัว สำหรับ Zoom: ใช้เวอร์ชัน 6.1.6 หรือก่อนหน้า หรือเปิดใช้งาน [Advanced capture with window filtering](https://support.zoom.us/hc/en/article?id=zm_kb&sysparm_article=KB0063824#:~:text=Advanced%20capture%20with%20window%20filtering,from%20the%20Zoom%20desktop%20app.)

ฟรีรวมอะไรบ้าง?

การตอบสนอง AI จำกัดต่อเดือน พอสำหรับทดสอบในการสัมภาษณ์หรือการประชุมไม่กี่ครั้ง รวมฟีเจอร์หลักทั้งหมด แผน Pro ยกเลิกขีดจำกัดและเพิ่มการรองรับหลายภาษา

ข้อมูลของฉันปลอดภัยไหม?

ใช่ ข้อมูลของคุณถูกเข้ารหัสและเราไม่เคยขายข้อมูลของคุณ

GeekBye ใช้สำหรับการสัมภาษณ์เขียนโค้ดได้ไหม?

ได้ GeekBye จับภาพหน้าจอของคุณแบบเรียลไทม์และให้คำตอบสำหรับปัญหาอัลกอริทึม คำถามการออกแบบระบบ การแก้บั๊ก และการปรับแต่งโค้ด ใช้งานได้กับทุกสภาพแวดล้อมการเขียนโค้ดหรือแพลตฟอร์มทดสอบออนไลน์

ช่วยเรื่องการสัมภาษณ์เชิงพฤติกรรมได้ไหม?

ได้แน่นอน GeekBye ฟังคำถามเชิงพฤติกรรมและแนะนำคำตอบแบบมีโครงสร้างตามวิธี STAR ประเด็นสำคัญที่เกี่ยวข้อง และคำตอบติดตามผลตามบริบทของบทสนทนา

GeekBye รองรับภาษาอะไรบ้าง?

GeekBye รองรับ 33 ภาษาสำหรับทั้งการถอดเสียงและการตอบสนอง AI คุณสามารถตั้งค่าภาษาถอดเสียงแยกจากภาษาผลลัพธ์ AI ได้ ซึ่งเป็นประโยชน์สำหรับผู้ที่ไม่ใช่เจ้าของภาษาอังกฤษที่สัมภาษณ์เป็นภาษาอังกฤษ

การตอบสนองของ AI เร็วแค่ไหน?

การตอบสนองเริ่มแสดงผลภายใน 2-3 วินาทีหลังจากกดปุ่มลัด AI เริ่มสร้างคำตอบทันทีขณะที่คุณยังคุยต่อ จึงไม่มีการหยุดชะงักที่น่าอึดอัด

ใช้งานได้บน macOS และ Windows ไหม?

ได้ GeekBye ทำงานแบบ native บนทั้ง macOS (14.0 Sonoma ขึ้นไป) และ Windows ความมองไม่เห็นจากการจับภาพหน้าจอทำงานได้บนทั้งสองแพลตฟอร์มโดยใช้การป้องกันเนื้อหาระดับ OS

ผู้สัมภาษณ์สามารถตรวจจับ GeekBye ได้ไหม?

ไม่ได้ GeekBye ใช้การป้องกันเนื้อหาของระบบปฏิบัติการเพื่อซ่อนตัวเองจากการจับภาพหน้าจอ การบันทึก และการแชร์ทั้งหมด ไม่เคยเข้าร่วมการโทรในฐานะบอทหรือผู้เข้าร่วม ไม่มีส่วนขยายเบราว์เซอร์ ไม่มีโค้ดแทรก และไม่มีร่องรอยเครือข่าย

จะเกิดอะไรขึ้นหลังจากการประชุมจบ?

GeekBye สร้างสรุปการประชุมแบบครบถ้วน รวมถึงประเด็นสำคัญ รายการสิ่งที่ต้องทำ และข้อเสนอแนะในการปรับปรุง นอกจากนี้ยังให้คะแนนผลงานของคุณจากหกเกณฑ์การสื่อสารพร้อมข้อเสนอแนะเฉพาะที่อ้างอิงจากบทถอดเสียง

การถอดเสียงทำงานอย่างไร?

GeekBye จับเสียงจากไมโครโฟนของคุณและเสียงระบบจากแพลตฟอร์มการประชุมพร้อมกัน ถอดเสียงแบบเรียลไทม์โดยใช้การรู้จำเสียง AI ดังนั้นคุณจะได้บันทึกครบถ้วนของทั้งสองฝ่ายในบทสนทนา

มีจำกัดความยาวการประชุมไหม?

ไม่มี แผนฟรีและ Pro รองรับระยะเวลาการประชุมไม่จำกัด การถอดเสียงทำงานต่อเนื่องตลอดเวลาที่การประชุมดำเนินอยู่โดยไม่มีการตัดหรือขัดจังหวะ

ใช้ GeekBye สำหรับการโทรขายได้ไหม?

ได้ มืออาชีพด้านการขายใช้ GeekBye เพื่อจัดการข้อโต้แย้งแบบเรียลไทม์ รับการโค้ชเรื่องกลยุทธ์การเจรจา และรับประเด็นพูดทันทีระหว่างการโทรกับลูกค้า ใช้งานได้กับทุกแพลตฟอร์มการประชุม

ต้องติดตั้งอะไรเพิ่มเติมไหม?

บน macOS การติดตั้งไดร์เวอร์เสียงเสมือน BlackHole (ฟรี, โอเพนซอร์ส) จะเปิดใช้งานการจับเสียงระบบสำหรับการถอดเสียง บน Windows ไม่ต้องติดตั้งซอฟต์แวร์เพิ่มเติม GeekBye จัดการทุกอย่างที่เหลือ

ยกเลิกการสมัครสมาชิกได้ทุกเมื่อไหม?

ได้ คุณสามารถยกเลิกการสมัครสมาชิก Pro ได้ทุกเมื่อ การเข้าถึงจะยังคงอยู่จนถึงสิ้นสุดรอบการเรียกเก็บเงินปัจจุบัน แผน Lifetime เป็นการซื้อครั้งเดียวโดยไม่มีค่าใช้จ่ายซ้ำ

GeekBye เก็บบันทึกการสัมภาษณ์ของฉันไหม?

บทถอดเสียงและการบันทึกทั้งหมดจะถูกจัดเก็บไว้ในเครื่องของคุณในฐานข้อมูลที่เข้ารหัส ไม่มีอะไรถูกอัปโหลดไปยังเซิร์ฟเวอร์คลาวด์ คุณมีสิทธิ์ควบคุมเต็มที่ในการดู ส่งออก หรือลบข้อมูลของคุณได้ทุกเมื่อ

ปุ่มลัดทำงานอย่างไร?

กด Cmd+Enter (macOS) หรือ Ctrl+Enter (Windows) เพื่อจับภาพหน้าจอและรับคำตอบ AI ทันที กด Cmd+Shift+. เพื่อเปิดรายงานการประชุม คุณสามารถเลือกจากสามรูปแบบปุ่มลัดที่ตั้งไว้ล่วงหน้าระหว่างการตั้งค่าเพื่อหลีกเลี่ยงความขัดแย้งกับโปรแกรมแก้ไขโค้ดของคุณ

ทำไม AI ถอดเสียงถึงฟังศัพท์เทคนิคผิด (และเราแก้มันอย่างไร)

วันที่ 2 กรกฎาคม เราเปิดเซสชันทดสอบและถาม GeekBye ด้วยเสียงพูดด้วยคำถามง่ายๆ: "What is the pointer in C++?" (pointer ใน C++ คืออะไร?)

ทรานสคริปต์สดตอบกลับมาเป็นบทกวี:

[23:16:37] You: Tell me, what is the point in life? [23:16:52] You: Handy Plus. [23:17:02] You: What the pointer in Plus Plus? [23:17:09] You: C.

"pointer in C++" (พอยน์เตอร์ในภาษา C++) กลายเป็น "point in life" (ความหมายของชีวิต) ไปเสียอย่างนั้น เมตริกสุขภาพของเซสชันเดียวกันเล่าเรื่องที่เหลือ: การเชื่อมต่อถอดเสียงหลุด 3 ครั้งใน 163 วินาที และช่องโหว่ 51 วินาทีในทรานสคริปต์ และมีเบาะแสอีกหนึ่งอย่างที่ภายหลังกลายเป็นสิ่งสำคัญที่สุด: กระบวนการกู้คืนหลังจบเซสชันของเรา — ซึ่งถอดเสียงจากไฟล์เสียงที่บันทึกไว้ในเครื่องใหม่อีกรอบเพื่อเติมช่องว่าง — ได้ประโยคนั้นเกือบถูก: "a pointer in plus, plus? What the pointer in plus, plus C++."

เสียงไม่มีปัญหาอะไรเลย โมเดลสดแค่ไม่มีเหตุผลให้คาดหวังว่าจะเจอ C++

นี่คือเรื่องราวของ GeekBye v2.0.11 เล่าจากทรานสคริปต์จริงและ log จาก production

ทำไมโมเดลถอดเสียงถึงฟังคำศัพท์ของคุณผิด

การรู้จำเสียงพูดคือปัญหาการทำนาย เมื่อได้รับเสียงที่กำกวม โมเดลจะเลือกคำที่น่าจะเป็นไปได้มากที่สุด — และสำหรับโมเดลแบบ general-purpose วลี "point in life" น่าจะเป็นไปได้มากกว่า "pointer in C++" หลายเท่า วิศวกรทุกคนที่เคยเห็นทรานสคริปต์การประชุมเขียน Kubernetes เป็น "cube and eddies" ล้วนเคยเจอความล้มเหลวแบบนี้มาแล้ว

ทางแก้ไม่ใช่ไมโครโฟนที่ดีกว่า แต่คือ keyterm biasing: การบอกโมเดลก่อนเริ่มเซสชันว่าคำไหนที่ปกติไม่ค่อยเจอ แต่สำหรับคุณมีโอกาสเจอสูง ผู้ให้บริการถอดเสียงของเรารองรับคำ biasing ได้สูงสุด 50 คำต่อเซสชัน และนี่คือส่วนที่น่าอาย: ท่อส่งข้อมูลสำหรับคำเหล่านั้นมีอยู่ครบแบบ end-to-end ใน stack ของเราแล้ว — ไคลเอนต์ backend ผู้ให้บริการ — แต่ไม่เคยมีอะไรใส่ค่าเข้าไปเลย ทุกเซสชันรันโดยไม่มีความช่วยเหลือด้านโดเมนแม้แต่นิดเดียว

Fix 1: โปรไฟล์ของคุณกลายเป็นคลังคำศัพท์ของโมเดล

GeekBye รู้โดเมนของคุณอยู่แล้ว — มันอยู่ในโปรไฟล์ที่คุณเปิดใช้งาน v2.0.11 สกัด keyterms สำหรับ biasing จากชื่อและคำอธิบายของโปรไฟล์: คำที่มีสัญลักษณ์ (C++, Node.js) ตัวย่อ (SQL, AWS) ชื่อแบบ camel-case (TypeScript, PostgreSQL) และชื่อเฉพาะ โปรไฟล์ที่พูดถึง stack ของคุณ ตอนนี้ทำให้ stack นั้นกลายเป็นสิ่งที่โมเดลคาดหวัง ไม่ใช่สิ่งแปลกปลอม

วันที่การแก้ไขทำให้ทุกอย่างแย่ลง

เวอร์ชันแรกของเราถือว่าทุกคำที่ขึ้นต้นด้วยตัวพิมพ์ใหญ่เป็นชื่อเฉพาะ บน internal test build (สิ่งนี้ไม่เคยไปถึงลูกค้า) โปรไฟล์ที่เขียนเป็นความเรียงส่งรายการ biasing ชุดนี้ไปให้โมเดล:

Senior, Writing, Direct, For, Includes, Write, Role, Intent…

การ bias โมเดลถอดเสียงไปหาคำว่า "For" แย่ยิ่งกว่าการไม่ bias เลย ในเซสชันทดสอบถัดมาทันที คำว่า "speak" — ที่พูดชัดๆ หลายครั้ง — กลับมาเป็น "Clicky", "Hey, Vicky" และ "Peter Paderty" บทเรียนนี้แลกมาด้วยเวลาหนึ่งบ่าย: bias ด้วยคำที่มีเอกลักษณ์เท่านั้น ตอนนี้คำขึ้นต้นด้วยตัวพิมพ์ใหญ่จะถูกนับก็ต่อเมื่อปรากฏกลางประโยค (ซึ่งเป็นสัญญาณของชื่อเฉพาะจริงๆ) ส่วนหัวข้อ markdown ที่ทุกคำขึ้นต้นด้วยตัวพิมพ์ใหญ่ จะไม่มีวันถูกนำมาใช้ โปรไฟล์เดิมตอนนี้สกัดออกมาได้ตรงเป๊ะ: LinkedIn, AI, CEO, MCP — และเซสชันตรวจสอบถอดเสียงหลายภาษาที่สลับกันเร็วๆ ได้ถูกต้องต่อเนื่อง 199 วินาทีเต็ม 189 เซกเมนต์ทรานสคริปต์ ข้อผิดพลาดเป็นศูนย์

Fix 2: race condition ที่ทำให้การเชื่อมต่อหลุด

keyterms อธิบายคำที่ฟังผิดได้ แต่อธิบายการเชื่อมต่อหลุดสามครั้งไม่ได้

เส้นทางนั้นนำไปสู่จุดที่ละเอียดอ่อนกว่า ผู้ให้บริการของเรา commit (สรุปผล) การถอดเสียงตาม voice-activity detection ของตัวเอง ประมาณหนึ่งวินาทีหลังเข้าสู่ความเงียบ ไคลเอนต์ของเราก็ส่ง safety commit เช่นกันที่ 250 มิลลิวินาทีหลังเข้าสู่ความเงียบ เพื่อ flush ประโยคค้างที่ยังไม่จบ ส่วนการยืนยันจากผู้ให้บริการว่าได้ commit ไปแล้ว ใช้เวลาหนึ่งถึงสามวินาทีกว่าจะเดินทางกลับมา ลองคำนวณจากตัวเลขสามตัวนั้นดู: เมื่อไรก็ตามที่ผู้ให้บริการ commit ก่อน safety commit ของเราจะยิงใส่บัฟเฟอร์ที่แทบจะว่างเปล่า — และการตอบสนองของผู้ให้บริการต่อเรื่องนั้นไม่ใช่แค่การปฏิเสธอย่างสุภาพ มันตัดการเชื่อมต่อทิ้งเลย ทุกจังหวะหยุดพูดกลายเป็นการโยนเหรียญ

v2.0.11 มาพร้อมการป้องกันสองชั้น:

ในแอป: เมื่อทรานสคริปต์ที่ commit แล้วมาถึง ไคลเอนต์จะรู้ว่าบัฟเฟอร์ของผู้ให้บริการเพิ่งถูก flush ไป และข้าม safety commit ที่ซ้ำซ้อนนั้นไป
ที่ backend ของเรา ในวันเดียวกัน: proxy ที่อยู่ระหว่างแอปกับผู้ให้บริการ ทำสำเนาระบบบัญชีเสียงของผู้ให้บริการแบบเป๊ะๆ — มันเห็นทุกเฟรมเสียงและทุกการยืนยัน commit โดยไม่มี latency — และปฏิเสธที่จะส่งต่อ commit ใดๆ ที่ผู้ให้บริการจะปฏิเสธอยู่แล้ว ชั้นนี้ปกป้องไคลเอนต์ทุกเวอร์ชันพร้อมกันในครั้งเดียว รวมถึงผู้ใช้ที่ยังไม่ได้อัปเดต

เราเห็นมันทำงานใน production ภายในหนึ่งชั่วโมง guard ดักจับ commit ที่จะพังซึ่งมีเสียงในบัฟเฟอร์เพียง 178ms และ 256ms — ก่อนหน้าวันนั้น แต่ละรายการคือการเชื่อมต่อหลุดแบบการันตี และช่องว่างในโน้ตการประชุมของใครสักคน เซสชันต่อเนื่อง 60 นาทีในบ่ายวันนั้นบันทึกการดักจับได้ 5 ครั้ง และการหลุดเป็นศูนย์ ก่อนการแก้ไข ผู้ใช้จริงคนหนึ่งในเช้าวันเดียวกันต้องรีสตาร์ตการอัดถึงห้าครั้งในหกนาที เพราะสู้กับบั๊กตัวนี้ตัวเดียวเลย

การแก้ไขเล็กๆ อีกสองอย่างที่ติดมาด้วย

AI insights รอจนกว่าจะมีเนื้อหาจริง เศษข้อความเพี้ยนๆ ช่วงต้นเซสชันเคยถูกป้อนเข้า suggestion chips แบบสดของ GeekBye ซึ่งผลิตหัวข้ออย่างมั่นใจ เช่น "Defining Life's Ultimate Purpose" (นิยามเป้าหมายสูงสุดของชีวิต) จากคำถาม C++ ที่ฟังผิด ตอนนี้คำแนะนำจะรอจนกว่าเซสชันจะมีเนื้อหาบทสนทนาจริงมากพอ

ข้อความที่กู้คืนได้ระบุผู้พูดถูกต้อง กระบวนการกู้คืนที่ถอดคำถาม C++ ของเราได้ถูกต้อง กลับระบุว่าเป็นของ "Them" (อีกฝ่าย) ตอนนี้ไทม์ไลน์เสียงที่บันทึกในเครื่องจะบันทึกด้วยว่าใครกำลังพูด ทำให้เซกเมนต์ที่กู้คืนมาระบุเป็น You หรือ Them ได้ถูกต้อง

สกอร์บอร์ด

ตัวชี้วัด (วัดจริง ไม่ใช่ประมาณการ)	ก่อน	หลัง v2.0.11 + backend guard
การเชื่อมต่อหลุดในเซสชันทดสอบ	3 ครั้งใน 163 วินาที	0
ช่องโหว่ทรานสคริปต์ยาวสุด	51 วินาที	ช่องว่างแย่สุด ~6 วินาทีตอนตรวจสอบ
"pointer in C++"	"point in life"	ถูกต้อง ด้วยคำศัพท์ที่ bias แล้ว
commit ที่จะพังซึ่งไปถึงผู้ให้บริการ	ทั้งหมด	0 (ถูกดักจับที่ backend)

ถ้าคุณกำลังพัฒนาบน realtime speech API

บทเรียนสามข้อจากรีลีสนี้ที่นำไปใช้ที่อื่นได้:

ป้อนข้อมูลให้ฟีเจอร์ biasing ถ้าผู้ให้บริการ STT ของคุณรองรับ keyterms/phrase hints การใส่คลังคำศัพท์ที่เล็กและมีเอกลักษณ์คือชัยชนะด้านความแม่นยำที่ถูกที่สุดที่หาได้ — และการใส่คำธรรมดาทั่วไปคือการสูญเสียความแม่นยำ
อย่าแข่งกับ state machine ของผู้ให้บริการจากฝั่งที่เสียเปรียบของ network round-trip ไคลเอนต์ของเราไม่มีทางชนะการแข่งขันข้อมูลระหว่าง 250ms กับ 3 วินาที guard ควรอยู่ตรงจุดที่สัญญาณทั้งสองมาบรรจบกัน — สำหรับเราคือ backend proxy
ตรวจสอบบน live build ก่อนเผยแพร่ regression ของ keyterms ถูกจับได้เพราะทุกรีลีสของ GeekBye ถูกทดสอบในรูปแบบ build ที่ sign และ notarize แล้วกับ production ก่อนปล่อยออกไป เวอร์ชันที่มีปัญหามีชีวิตอยู่แค่ไม่กี่ชั่วโมงบนเครื่องภายในหนึ่งเครื่อง ไม่ใช่บน Mac ของคุณ

GeekBye v2.0.11 ปล่อยแล้วตอนนี้ — ถ้าคุณใช้ v2 อยู่ คุณได้รับมันผ่าน auto-update เรียบร้อยแล้ว สำหรับงานด้านความเสถียรที่เป็นรากฐานของรีลีสนี้ อ่านทำไม AI notetaker ของคุณถึงหยุดทำงานบน Wi-Fi ห่วยๆ และมีอะไรใหม่ใน GeekBye v2 ส่วนวิธีใช้การถอดเสียงสดในชีวิตประจำวัน เริ่มที่การถอดเสียงแบบเรียลไทม์ใน GeekBye