在当今数据丰富的世界中,许多有价值的见解往往深藏于非结构化文本之中,例如详尽的临床记录、冗长的法律文件、纷繁的客户反馈以及不断更新的新闻报道。手动梳理这些信息,或编写专门的代码来处理数据,既耗时又容易出错;而若简单地使用现代大语言模型 (LLM),则可能引入新的错误。试想一下,如果能够以编程方式精准提取所需信息,同时确保输出结果结构清晰,并能可靠地追溯来源,那该有多高效?
今天,我们很高兴推出 LangExtract,这是一款全新的开源 Python 库,旨在帮助开发者实现上述目标。LangExtract 提供了一个轻量级的接口,可连接包括 Gemini 模型在内的多种 LLM,以根据自定义指令将大量非结构化文本处理为结构化信息,兼顾灵活性与可追溯性。
无论您处理的是医疗报告、财务摘要,还是其他任何文本密集型领域的资料,LangExtract 都能为您提供一种灵活而强大的方式,释放其中蕴藏的数据价值。
LangExtract 集成了一系列独特功能,使其在信息提取任务中尤为实用:
以下是如何从莎士比亚的台词中提取人物详细信息的示例。
首先,安装内容库:
有关更详细的设置说明,包括虚拟环境和 API 密钥配置,请参阅项目 README 文档。
pip install langextract
接下来,定义提取任务。提供清晰的提示和高质量的“少样本”示例,以指导模型。
import textwrap
import langextract as lx
# 1. 定义简洁的提示语
prompt = textwrap.dedent("""\
按出现顺序提取人物、情感及人物关系。
提取时需使用原文中的确切文字,不得改写,且实体之间不得重叠。
为每个实体提供有意义的属性,以增加上下文信息。""")
# 2. 提供高质量的示例来指导模型
examples = [
lx.data.ExampleData(
text=(
"ROMEO. But soft! What light through yonder window breaks? It is"
" the east, and Juliet is the sun."
),
extractions=[
lx.data.Extraction(
extraction_class="character",
extraction_text="ROMEO",
attributes={"emotional_state": "wonder"},
),
lx.data.Extraction(
extraction_class="emotion",
extraction_text="But soft!",
attributes={"feeling": "gentle awe"},
),
lx.data.Extraction(
extraction_class="relationship",
extraction_text="Juliet is the sun",
attributes={"type": "metaphor"},
),
],
)
]
# 3. 在输入文本上运行提取
input_text = (
"Lady Juliet gazed longingly at the stars, her heart aching for Romeo"
)
result = lx.extract(
text_or_documents=input_text,
prompt_description=prompt,
examples=examples,
model_id="gemini-2.5-pro",
)
结果对象包含提取的实体,可保存为 JSONL 文件。随后,您可以生成一个交互式 HTML 文件来查看这些注解。这种可视化方式非常适合用于演示或评估提取质量,能够节省大量时间。它可在 Google Colab 等环境中无缝运行,也可保存为独立的 HTML 文件,通过浏览器直接查看。
# 将结果保存为 JSONL 文件
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl")
# Generate the interactive visualization from the file
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:
f.write(html_content)
上述原理同样适用于医学、金融、工程或法律等专业领域。LangExtract 的设计理念最初正是应用于医疗信息提取,并在处理临床文本方面表现出色。例如,它能够识别药物名称、剂量及其他药物相关属性,并建立它们之间的关联关系。这一能力是推动本内容库诞生的核心研究成果,您可通过我们关于加速医疗信息提取的论文了解更多详情。
下方动画展示了 LangExtract 处理临床文本,提取与药物相关的实体,并将其分组至对应来源药物的全过程。
为了展示 LangExtract 在专业领域的强大能力,我们在 Hugging Face 上开发了一个名为 RadExtract 的交互式演示,用于结构化放射学报告。该演示展示了 LangExtract 如何处理自由文本形式的放射学报告,并自动将其关键发现结果转换为结构化格式,同时突出显示重要的结果。这种方法在放射学领域尤为重要,因为结构化报告能够提升信息清晰度、确保内容完整性,并增强数据在科研与临床诊疗中的互操作性。
免责条款: 上述药物提取示例和结构化报告演示仅用于展示 LangExtract 的基础功能,不代表任何已完成或获批的产品;不用于诊断疾病或推荐治疗方案,亦不应作为医疗建议使用。
我们期待看到开发者们以富有创意的方式,利用 LangExtract 从文本中挖掘出更多数据洞见。查阅文档,浏览 GitHub repo中的示例,立即开始转化非结构化数据吧。
验孕棒阴性是什么意思 | 蚊子咬了为什么痒 | hpvhr阳性什么意思 | 右肺上叶钙化灶是什么意思 | 什么酷暑 |
弥漫性脂肪肝什么意思 | 马后炮是什么意思 | 疽是什么意思 | 吝啬的意思是什么 | 脑白质脱髓鞘吃什么药 |
入园体检都检查什么 | 洋参片泡水喝有什么功效 | 手术后吃什么鱼伤口愈合快 | angry是什么意思 | 节度使是什么意思 |
婉甸女装属于什么档次 | 赫拉是什么神 | 脱氧核糖是什么 | 子宫肌瘤变性是什么意思 | 怀孕做nt检查什么 |
孕妇吃梨有什么好处hcv9jop3ns4r.cn | 小混混是什么意思hcv8jop6ns6r.cn | 胃烧心吃什么能缓解hcv8jop5ns3r.cn | 蝴蝶长什么样hcv7jop6ns4r.cn | 什么都别说hcv9jop4ns9r.cn |
马拉色菌毛囊炎用什么药治疗最好zhongyiyatai.com | 藏头诗什么意思hcv9jop0ns8r.cn | 桂花像什么hcv9jop1ns2r.cn | 恪尽职守是什么意思yanzhenzixun.com | 唯爱是什么意思hcv9jop8ns2r.cn |
膈应什么意思dayuxmw.com | 多吃海带有什么好处和坏处hcv9jop7ns1r.cn | 拉肚子吃什么饭hcv7jop9ns1r.cn | 高什么亮什么hcv9jop0ns3r.cn | 关节外科主要看什么hcv9jop3ns8r.cn |
待产是什么意思jingluanji.com | 黑蚂蚁泡酒有什么功效hcv9jop6ns4r.cn | 蚧壳虫用什么药hcv9jop0ns7r.cn | 黄豆可以和什么一起打豆浆hcv9jop0ns6r.cn | 鬼代表什么数字hcv8jop6ns3r.cn |