从摘要和标题中抽取目标产物

从small复制一个tmp文件用于在数据挖掘过程中添加字段
2025-06-12 21:27:53 +08:00 · 2025-06-12 20:52:07 +08:00
6 changed files with 26555 additions and 0 deletions
--- a/layer3/data/step1_materials_with_target.json
+++ b/layer3/data/step1_materials_with_target.json
--- a/layer3/data/step1_materials_without_target.json
+++ b/layer3/data/step1_materials_without_target.json
--- a/layer3/data/tmp.json
+++ b/layer3/data/tmp.json
--- a/layer3/src/IsMaterialSci.py
+++ b/layer3/src/IsMaterialSci.py
--- a/layer3/src/paper-mat.py
+++ b/layer3/src/paper-mat.py
--- a/layer3/src/step1_get_final_material.py
+++ b/layer3/src/step1_get_final_material.py
@@ -0,0 +1,282 @@
+import json
+import threading
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from openai import OpenAI
+import re
+from tqdm import tqdm
+import os
+from threading import Lock
+
+class MaterialProductExtractor:
+    def __init__(self, base_url="", api_key="", model="gpt-3.5-turbo", max_workers=32):
+        """
+        初始化材料产物抽取器
+        
+        Args:
+            base_url (str): OpenAI API base URL
+            api_key (str): OpenAI API key
+            model (str): 使用的模型名称
+            max_workers (int): 线程数
+        """
+        self.client = OpenAI(
+            base_url=base_url,
+            api_key=api_key
+        )
+        self.model = model
+        self.max_workers = max_workers
+        self.lock = Lock()
+        
+        # 存储结果的列表
+        self.results_with_target = []
+        self.results_without_target = []
+        
+    def create_prompt(self, title, abstract):
+        """
+        创建用于抽取最终产物的提示词
+        
+        Args:
+            title (str): 文献标题
+            abstract (str): 文献摘要
+            
+        Returns:
+            str: 格式化的提示词
+        """
+        prompt = f"""
+你是一个材料科学专家。请分析以下材料科学文献的标题和摘要，抽取该研究的最终产物。
+
+标题: {title}
+摘要: {abstract}
+
+请仔细分析文献内容，识别研究中合成、制备或获得的最终材料产物。最终产物通常是：
+1. 新合成的化合物或材料
+2. 改性后的材料
+3. 复合材料
+4. 纳米材料
+5. 薄膜、涂层等
+
+请以JSON格式返回结果，格式如下：
+{{
+    "has_target": true/false,
+    "target_materials": [
+        {{
+            "name": "材料名称",
+            "chemical_formula": "化学式（如果有）",
+            "description": "材料描述",
+            "confidence": 0.0-1.0
+        }}
+    ],
+    "reasoning": "抽取理由的简要说明"
+}}
+
+如果没有明确的最终产物，请将has_target设为false，target_materials设为空列表。
+
+请确保返回的是有效的JSON格式。
+"""
+        return prompt
+
+    def extract_target_from_response(self, response_text):
+        """
+        从LLM响应中提取JSON内容
+        
+        Args:
+            response_text (str): LLM的原始响应
+            
+        Returns:
+            dict: 解析后的结果字典
+        """
+        try:
+            # 尝试直接解析JSON
+            result = json.loads(response_text)
+            return result
+        except json.JSONDecodeError:
+            # 如果直接解析失败，尝试提取JSON部分
+            json_match = re.search(r'\{.*\}', response_text, re.DOTALL)
+            if json_match:
+                try:
+                    result = json.loads(json_match.group())
+                    return result
+                except json.JSONDecodeError:
+                    pass
+            
+            # 如果还是失败，返回默认结果
+            return {
+                "has_target": False,
+                "target_materials": [],
+                "reasoning": "解析失败"
+            }
+
+    def process_single_article(self, article_data):
+        """
+        处理单篇文献
+        
+        Args:
+            article_data (dict): 包含文献信息的字典
+            
+        Returns:
+            dict: 处理后的结果
+        """
+        try:
+            title = article_data.get("Article Title", "")
+            abstract = article_data.get("Abstract", "")
+            
+            if not title and not abstract:
+                return None
+            
+            # 创建提示词
+            prompt = self.create_prompt(title, abstract)
+            
+            # 调用LLM
+            response = self.client.chat.completions.create(
+                model=self.model,
+                messages=[
+                    {"role": "system", "content": "你是一个专业的材料科学研究助手，擅长从文献中抽取材料信息。"},
+                    {"role": "user", "content": prompt}
+                ],
+                temperature=0.3,
+                max_tokens=1000
+            )
+            
+            # 提取响应内容
+            response_text = response.choices[0].message.content
+            
+            # 解析结果
+            extraction_result = self.extract_target_from_response(response_text)
+            
+            # 构建返回结果
+            result = article_data.copy()
+            
+            if extraction_result.get("has_target", False) and extraction_result.get("target_materials"):
+                # 格式化目标材料信息
+                target_info = {
+                    "materials": extraction_result["target_materials"],
+                    "reasoning": extraction_result.get("reasoning", ""),
+                    "extraction_confidence": max([m.get("confidence", 0.5) for m in extraction_result["target_materials"]] + [0.5])
+                }
+                result["Target"] = target_info
+                return ("with_target", result)
+            else:
+                result["Target"] = None
+                return ("without_target", result)
+                
+        except Exception as e:
+            print(f"处理文献时出错: {e}")
+            result = article_data.copy()
+            result["Target"] = None
+            result["Error"] = str(e)
+            return ("error", result)
+
+    def process_articles(self, input_file, output_with_target, output_without_target):
+        """
+        批量处理文献
+        
+        Args:
+            input_file (str): 输入文件路径
+            output_with_target (str): 有目标产物的输出文件路径
+            output_without_target (str): 无目标产物的输出文件路径
+        """
+        # 读取输入数据
+        print("正在读取输入文件...")
+        with open(input_file, 'r', encoding='utf-8') as f:
+            articles = json.load(f)
+        
+        articles = articles # 测试时只处理前10篇文献
+
+        print(f"共读取到 {len(articles)} 篇文献")
+        
+        # 创建进度条
+        pbar = tqdm(total=len(articles), desc="处理文献")
+        
+        # 多线程处理
+        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+            # 提交所有任务
+            future_to_article = {
+                executor.submit(self.process_single_article, article): i 
+                for i, article in enumerate(articles)
+            }
+            
+            # 收集结果
+            for future in as_completed(future_to_article):
+                try:
+                    result = future.result()
+                    if result:
+                        result_type, result_data = result
+                        
+                        with self.lock:
+                            if result_type == "with_target":
+                                self.results_with_target.append(result_data)
+                            else:  # without_target or error
+                                self.results_without_target.append(result_data)
+                    
+                    pbar.update(1)
+                    
+                except Exception as e:
+                    print(f"处理结果时出错: {e}")
+                    pbar.update(1)
+        
+        pbar.close()
+        
+        # 保存结果
+        print(f"保存结果: {len(self.results_with_target)} 篇有目标产物, {len(self.results_without_target)} 篇无目标产物")
+        
+        # 保存有目标产物的文献
+        if self.results_with_target:
+            with open(output_with_target, 'w', encoding='utf-8') as f:
+                json.dump(self.results_with_target, f, ensure_ascii=False, indent=2)
+            print(f"有目标产物的文献已保存到: {output_with_target}")
+        
+        # 保存无目标产物的文献
+        if self.results_without_target:
+            with open(output_without_target, 'w', encoding='utf-8') as f:
+                json.dump(self.results_without_target, f, ensure_ascii=False, indent=2)
+            print(f"无目标产物的文献已保存到: {output_without_target}")
+
+def main():
+    """
+    主函数
+    """
+    # 配置参数 - 请在这里填入您的配置
+    BASE_URL = "https://vip.apiyi.com/v1"  # 请填入您的API base URL
+    API_KEY = "sk-oYh3Xrhg8oDY2gW02c966f31C84449Ad86F9Cd9dF6E64a8d"   # 请填入您的API key
+    MODEL = "deepseek-chat"  # 可以根据需要修改模型
+    THREAD_COUNT = 32
+    
+    # 文件路径
+    INPUT_FILE = "/home/ubuntu/50T/LYT/MatBench/layer3/data/raw_small_data.json"
+    OUTPUT_WITH_TARGET = "/home/ubuntu/50T/LYT/MatBench/layer3/data/step1_materials_with_target.json"
+    OUTPUT_WITHOUT_TARGET = "/home/ubuntu/50T/LYT/MatBench/layer3/data/step1_materials_without_target.json"
+    
+    # 检查输入文件是否存在
+    if not os.path.exists(INPUT_FILE):
+        print(f"错误: 输入文件不存在 - {INPUT_FILE}")
+        return
+    
+    # 检查API配置
+    if not BASE_URL or not API_KEY:
+        print("警告: 请先配置BASE_URL和API_KEY")
+        print("请在代码中的BASE_URL和API_KEY变量处填入正确的值")
+        return
+    
+    # 创建提取器
+    extractor = MaterialProductExtractor(
+        base_url=BASE_URL,
+        api_key=API_KEY,
+        model=MODEL,
+        max_workers=THREAD_COUNT
+    )
+    
+    # 处理文献
+    try:
+        extractor.process_articles(INPUT_FILE, OUTPUT_WITH_TARGET, OUTPUT_WITHOUT_TARGET)
+        print("处理完成!")
+        
+        # 打印统计信息
+        print(f"\n统计信息:")
+        print(f"- 检测到目标产物的文献: {len(extractor.results_with_target)} 篇")
+        print(f"- 未检测到目标产物的文献: {len(extractor.results_without_target)} 篇")
+        print(f"- 总处理文献: {len(extractor.results_with_target) + len(extractor.results_without_target)} 篇")
+        
+    except Exception as e:
+        print(f"处理过程中出错: {e}")
+
+if __name__ == "__main__":
+    main()
Author	SHA1	Message	Date
lzy	53238c2b9b	从摘要和标题中抽取目标产物	2025-06-12 21:27:53 +08:00
lzy	007d49e367	从small复制一个tmp文件用于在数据挖掘过程中添加字段	2025-06-12 20:52:07 +08:00