QYQ 正在招 端侧 AI 推理工程师。
我们做的事很朴素:让 7B 模型在千元机上跑出 30 token/s,让手机拍一张照片就能在端上完成 4K 修图,
让车机不用联网就能跟你聊天。够野,够落地。
QYQ 是一家做端侧 AI 基础设施的公司。我们不追通用大模型的参数榜,我们追的是 「在真实硬件上跑得起来」 这件事。模型再强,下不动用户的手机就是空气。
一群真的把模型塞进真机的人。不是在 PPT 上谈 AI,是真上手。
QYQ 的核心团队来自 字节跳动、MiniMax、蔚来 等头部 AI 与科技公司,硕博学历 占绝大多数,平均行业经验 8 年以上。
我们做过千万 DAU 的端侧推理引擎,主导过大模型在车机、耳机、眼镜上的量产部署,把 7B 模型从 100ms 干到 20ms,把 INT8 量化精度掉点控制在 0.3% 以内——这些不是写在 roadmap 上的目标,是已经上线、已经跑在用户设备上的事。
这次招的端侧 AI 推理工程师,将直接和我们一起干——不是你做底层我们做 PPT,是同一个代码仓库、同一个 latency dashboard、同一台真机。
我们不是来追风口的。我们是真的在做这件事。
一个能把论文里的 SOTA 真正落到产线芯片上的角色。
LLM、Diffusion、ASR 等模型塞进手机、车机、眼镜、耳机、平板、玩具——任何用户会摸到硅。latency 从 100ms 干到 20ms。perfetto、systrace、ncu、vTune 这些工具追到 cache miss、追到访存瓶颈、追到那条让你睡不着的慢路径。TensorRT-LLM、MLC-LLM、llama.cpp、vLLM、TVM、NNAPI、CoreML——挑一个说出它的三处实现细节。model.onnx 内部结构,知道算子 fusion、constant folding、layout transform 怎么用。没有也欢迎来聊——但有的话,你的简历会直接被标红。
不是 fork 来的 star,是你自己写的、被别人 fork 的那种。
llama.cpp、MLC-LLM、TinyChat、Llama on Phones——把 7B 塞进 4GB 内存的那种快感。
高通 QNN、联发科 Neuron SDK、苹果 ANE、华为 HiAI、Intel OpenVINO——至少玩过一个。
知道 LPDDR5x 的带宽天花板、知道某 NPU 的 MAC 阵列是 systolic 还是 outer product。
MLPerf、NN-Graph 优化比赛、Kaggle LLM Science Exam——做过且不是陪跑。
不是调包,是从 Graph IR 到 Kernel 调度再到内存分配器,每一层都碰过。
不写这些不是因为我们忘了,是因为我们真的不在乎。
不画饼,不玩「期权 + 梦想」组合拳。数字写在这里,能给你就给,给不了写清楚。
附上你最得意的一次端侧推理优化 case —— 一段代码、一组 benchmark、一个跑分对比,都行。
我们更想看你 怎么把模型塞进真机,而不是怎么写一份漂亮的简历。
把简历扔过来,我们 3 个工作日内给反馈。
hire@qyq.ai[Edge Inference] 你的名字 · 当前角色